動的計画法における誤差伝播:確率制御からオプション価格付けまで

動的計画法における誤差伝播:確率制御からオプション価格付けまで

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

本論文は、離散時間における確率的最適制御(SOC)の理論的および方法論的基礎を調査する。一般動的計画法の枠組みで制御問題を定式化し、詳細な収束解析に必要な数学的構造を導入するところから始める。関連する価値関数は、ノンパラメトリック回帰法とモンテカルロ部分標本法を組み合わせた近似列を通して推定される。回帰ステップは再生核ヒルベルト空間(RKHSs)内で実行され、古典的なKRRアルゴリズムを利用する一方、モンテカルロサンプリング法は継続価値を推定するために導入される。価値関数推定量の精度を評価するために、自然な誤差分解を提案し、各時点での結果として生じる誤差項を厳密に制御する。その後、この誤差が時間的に逆向きに、満期から初期段階までどのように伝播するかを分析する — SOC文献では比較的未開拓な側面である。最後に、この分析が主要な金融アプリケーション、すなわちアメリカンオプションの価格決定にどのように自然に適用されるかを示す。

原文(英語)を表示

Title (EN): Error Propagation in Dynamic Programming: From Stochastic Control to Option Pricing

arXiv:2509.20239v1 Announce Type: cross
Abstract: This paper investigates theoretical and methodological foundations for stochastic optimal control (SOC) in discrete time. We start formulating the control problem in a general dynamic programming framework, introducing the mathematical structure needed for a detailed convergence analysis. The associate value function is estimated through a sequence of approximations combining nonparametric regression methods and Monte Carlo subsampling. The regression step is performed within reproducing kernel Hilbert spaces (RKHSs), exploiting the classical KRR algorithm, while Monte Carlo sampling methods are introduced to estimate the continuation value. To assess the accuracy of our value function estimator, we propose a natural error decomposition and rigorously control the resulting error terms at each time step. We then analyze how this error propagates backward in time-from maturity to the initial stage-a relatively underexplored aspect of the SOC literature. Finally, we illustrate how our analysis naturally applies to a key financial application: the pricing of American options.

Published: 2025-09-24 19:00 UTC


コメントする