ウェーブレットフーリエ拡散モデル:強化学習のための周波数認識拡散モデル

ウェーブレットフーリエ拡散モデル:強化学習のための周波数認識拡散モデル

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19305v1発表形式:クロス

要約:拡散確率モデルは、軌跡系列を直接モデル化することで、オフライン強化学習において大きな可能性を示しています。しかしながら、既存のアプローチは時間領域の特徴に主に焦点を当てており、周波数領域の特徴を見過ごしているため、我々の観察によると周波数シフトと性能低下が生じています。本論文では、周波数領域という新たな視点から強化学習問題を検討します。まず、時間領域のみのアプローチは、周波数領域の低周波数成分にシフトを意図せず導入し、その結果、軌跡の不安定性と性能低下を引き起こすことを観察しました。この問題に対処するため、本論文では、離散ウェーブレット変換を用いて軌跡を低周波数成分と高周波数成分に分解する、新規拡散ベースの強化学習フレームワークであるWavelet Fourier Diffuser (WFDiffuser)を提案します。さらに、各成分の拡散モデリングを強化するために、WFDiffuserは短時間フーリエ変換とクロスアテンション機構を用いて周波数領域の特徴を抽出し、周波数間の相互作用を促進します。D4RLベンチマーク上での広範な実験結果から、WFDiffuserは周波数シフトを効果的に軽減し、より滑らかで安定した軌跡と、既存の方法よりも優れた意思決定性能をもたらすことが示されました。

原文(英語)を表示

Title (EN): Wavelet Fourier Diffuser: Frequency-Aware Diffusion Model for Reinforcement Learning

arXiv:2509.19305v1 Announce Type: cross
Abstract: Diffusion probability models have shown significant promise in offline reinforcement learning by directly modeling trajectory sequences. However, existing approaches primarily focus on time-domain features while overlooking frequency-domain features, leading to frequency shift and degraded performance according to our observation. In this paper, we investigate the RL problem from a new perspective of the frequency domain. We first observe that time-domain-only approaches inadvertently introduce shifts in the low-frequency components of the frequency domain, which results in trajectory instability and degraded performance. To address this issue, we propose Wavelet Fourier Diffuser (WFDiffuser), a novel diffusion-based RL framework that integrates Discrete Wavelet Transform to decompose trajectories into low- and high-frequency components. To further enhance diffusion modeling for each component, WFDiffuser employs Short-Time Fourier Transform and cross attention mechanisms to extract frequency-domain features and facilitate cross-frequency interaction. Extensive experiment results on the D4RL benchmark demonstrate that WFDiffuser effectively mitigates frequency shift, leading to smoother, more stable trajectories and improved decision-making performance over existing methods.

Published: 2025-09-24 19:00 UTC


コメントする