DAWM:行動推論遷移によるオフライン強化学習のための拡散作用ワールドモデル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19538v1発表種別:クロス
概要:拡散モデルに基づくワールドモデルは、オフライン強化学習(RL)において現実的な長期間の軌跡を合成する強力な能力を示してきました。しかし、既存の多くの手法は状態と報酬と共に直接行動を生成せず、1ステップ時間差学習(TD学習)に依存する標準的な価値ベースのオフラインRLアルゴリズムとの互換性を制限しています。この問題に対処するために、状態、報酬、行動の同時モデリングを検討した先行研究もありますが、そのような定式化は多くの場合、訓練の複雑性の増加と実際のパフォーマンスの低下につながります。本研究では、現在の状態、行動、およびGo-to報酬を条件として将来の状態報酬軌跡を生成する拡散モデルに基づくワールドモデル**DAWM**を提案します。これは、効率的な行動推論のための逆ダイナミクスモデル(IDM)と組み合わせたモジュール型設計です。このモジュール型設計は、1ステップTDベースのオフラインRLに適した完全な合成遷移を生成し、効果的かつ計算効率の高い訓練を可能にします。実験的に、TD3BCやIQLなどの保守的なオフラインRLアルゴリズムは、これらの拡張軌跡を用いた訓練から大幅に恩恵を受け、D4RLベンチマークの複数のタスクにおいて、先行する拡散モデルベースのベースラインを常に上回ることが示されました。
原文(英語)を表示
Title (EN): DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions
arXiv:2509.19538v1 Announce Type: cross
Abstract: Diffusion-based world models have demonstrated strong capabilities in synthesizing realistic long-horizon trajectories for offline reinforcement learning (RL). However, many existing methods do not directly generate actions alongside states and rewards, limiting their compatibility with standard value-based offline RL algorithms that rely on one-step temporal difference (TD) learning. While prior work has explored joint modeling of states, rewards, and actions to address this issue, such formulations often lead to increased training complexity and reduced performance in practice. We propose \textbf{DAWM}, a diffusion-based world model that generates future state-reward trajectories conditioned on the current state, action, and return-to-go, paired with an inverse dynamics model (IDM) for efficient action inference. This modular design produces complete synthetic transitions suitable for one-step TD-based offline RL, enabling effective and computationally efficient training. Empirically, we show that conservative offline RL algorithms such as TD3BC and IQL benefit significantly from training on these augmented trajectories, consistently outperforming prior diffusion-based baselines across multiple tasks in the D4RL benchmark.
Published: 2025-09-24 19:00 UTC