Deprecated: 関数 WP_Dependencies->add_data() がバージョン 6.9.0 から非推奨になった引数付きで呼び出されました。IE の条件付きコメントは、対応しているすべてのブラウザで無視されます。 in /var/www/html/wordpress/wp-includes/functions.php on line 6131

確率的および敵対的制約を持つオンラインCMDPにおけるスレーター条件を超えて

確率的および敵対的制約を持つオンラインCMDPにおけるスレーター条件を超えて

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20114v1発表種別:新規

概要:本研究では、確率的制約と敵対的制約の両方の下でのオンラインエピソード制約マルコフ決定過程(CMDPs)を考察する。我々は新規アルゴリズムを提案し、Stradiら(2025)が導入した最先端の両刀型アルゴリズムの保証を大幅に向上させる。確率的体制、すなわち制約が固定であるが未知の分布からサンプリングされる場合、我々の手法はSlater条件に依存することなく、$\widetilde{\mathcal{O}}(\sqrt{T})$のレグレットと制約違反を達成し、厳密に実行可能な解が存在しない設定にも対応する。さらに、初期エピソードにおける大きな違反からの回復を厳密に安全なポリシーの実行によって許容しない、より強い意味での正の制約違反に関する保証を提供する。敵対的体制、すなわち制約がエピソード間で任意に変更される場合、我々のアルゴリズムはSlater条件なしに準線形制約違反を保証し、適切に定義された乗法近似係数$\alpha$に関して、非制約最適解に対する準線形$\alpha$-レグレットを達成する。さらに、合成実験を通じて我々の結果を検証し、アルゴリズムの実効性を示す。

原文(英語)を表示

Title (EN): Beyond Slater’s Condition in Online CMDPs with Stochastic and Adversarial Constraints

arXiv:2509.20114v1 Announce Type: new
Abstract: We study \emph{online episodic Constrained Markov Decision Processes} (CMDPs) under both stochastic and adversarial constraints. We provide a novel algorithm whose guarantees greatly improve those of the state-of-the-art best-of-both-worlds algorithm introduced by Stradi et al. (2025). In the stochastic regime, \emph{i.e.}, when the constraints are sampled from fixed but unknown distributions, our method achieves $\widetilde{\mathcal{O}}(\sqrt{T})$ regret and constraint violation without relying on Slater’s condition, thereby handling settings where no strictly feasible solution exists. Moreover, we provide guarantees on the stronger notion of \emph{positive} constraint violation, which does not allow to recover from large violation in the early episodes by playing strictly safe policies. In the adversarial regime, \emph{i.e.}, when the constraints may change arbitrarily between episodes, our algorithm ensures sublinear constraint violation without Slater’s condition, and achieves sublinear $\alpha$-regret with respect to the \emph{unconstrained} optimum, where $\alpha$ is a suitably defined multiplicative approximation factor. We further validate our results through synthetic experiments, showing the practical effectiveness of our algorithm.

Published: 2025-09-24 19:00 UTC


コメントする