超高解像度画像合成のための潜在ウェーブレット拡散

超高解像度画像合成のための潜在ウェーブレット拡散

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2506.00433v3 発表種別:差し替えクロス

概要:高解像度画像合成は、特に計算効率と微細な視覚的詳細の保持のバランスにおいて、生成モデルの中核となる課題であり続けています。本稿では、超高解像度(2K-4K)画像合成における詳細とテクスチャの忠実度を大幅に向上させる軽量なトレーニングフレームワークであるLatent Wavelet Diffusion (LWD) を提案します。LWDは、ウェーブレットエネルギーマップから導出された、周波数に配慮した新規なマスキング戦略を導入し、潜在空間の詳細が豊富な領域にトレーニングプロセスを動的に集中させます。これは、高いスペクトル忠実性を確保するためのスケール一貫性のあるVAE目的関数によって補完されます。本手法の主な利点は効率性です。LWDは、アーキテクチャの変更を必要とせず、推論中に追加コストをゼロで済ませるため、既存モデルをスケーリングするための実際的なソリューションとなります。複数の強力なベースラインにおいて、LWDは知覚品質とFIDスコアを常に改善し、信号駆動型の監視が、高解像度生成モデルへの原理的で効率的な経路であることを示しています。

原文(英語)を表示

Title (EN): Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis

arXiv:2506.00433v3 Announce Type: replace-cross
Abstract: High-resolution image synthesis remains a core challenge in generative modeling, particularly in balancing computational efficiency with the preservation of fine-grained visual detail. We present Latent Wavelet Diffusion (LWD), a lightweight training framework that significantly improves detail and texture fidelity in ultra-high-resolution (2K-4K) image synthesis. LWD introduces a novel, frequency-aware masking strategy derived from wavelet energy maps, which dynamically focuses the training process on detail-rich regions of the latent space. This is complemented by a scale-consistent VAE objective to ensure high spectral fidelity. The primary advantage of our approach is its efficiency: LWD requires no architectural modifications and adds zero additional cost during inference, making it a practical solution for scaling existing models. Across multiple strong baselines, LWD consistently improves perceptual quality and FID scores, demonstrating the power of signal-driven supervision as a principled and efficient path toward high-resolution generative modeling.

Published: 2025-09-24 19:00 UTC


コメントする