圧縮できないサンプル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2409.02529v4 発表種別:置換
概要:学習済み画像表現において、基本的なオートエンコーダはしばしばぼやけた結果を生み出す。再構成品質は、敵対的(GAN)損失や知覚損失などの追加ペナルティを組み込むことで向上させることができる。しかしながら、これらのアプローチは原理的な解釈に欠けていると言える。同時に、生成設定において拡散モデルは鮮明で高品質な結果を生み出す驚くべき能力を示しており、変分推論からフィッシャーダイバージェンスの直接的研究まで、堅固な理論的基礎を持つ。本研究はオートエンコーダによる表現学習と拡散モデルを組み合わせ、拡散ベースの損失の下で連続的なエンコーダとデコーダを共同学習し、それがより高い圧縮率とより良い生成につながることを実証した、最初の研究であると我々は考えている。本アプローチは、GANベースのオートエンコーダと比較して、より優れた再構成品質をもたらし、調整も容易であることを示す。また、得られた表現は、最先端のGANベースの損失から得られた表現と比較して、潜在拡散モデルでより簡単にモデル化できることも示す。デコーダは確率的であるため、それ以外では決定論的な潜在表現にはエンコードされていない詳細を生成することができる。そのため、本アプローチを「圧縮できないものをサンプルする」(Sample what you can’t compress, SWYCC)と名付けた。
原文(英語)を表示
Title (EN): Sample what you cant compress
arXiv:2409.02529v4 Announce Type: replace
Abstract: For learned image representations, basic autoencoders often produce blurry results. Reconstruction quality can be improved by incorporating additional penalties such as adversarial (GAN) and perceptual losses. Arguably, these approaches lack a principled interpretation. Concurrently, in generative settings diffusion has demonstrated a remarkable ability to create crisp, high quality results and has solid theoretical underpinnings (from variational inference to direct study as the Fisher Divergence). Our work combines autoencoder representation learning with diffusion and is, to our knowledge, the first to demonstrate jointly learning a continuous encoder and decoder under a diffusion-based loss and showing that it can lead to higher compression and better generation. We demonstrate that this approach yields better reconstruction quality as compared to GAN-based autoencoders while being easier to tune. We also show that the resulting representation is easier to model with a latent diffusion model as compared to the representation obtained from a state-of-the-art GAN-based loss. Since our decoder is stochastic, it can generate details not encoded in the otherwise deterministic latent representation; we therefore name our approach “Sample what you can’t compress”, or SWYCC for short.
Published: 2025-09-24 19:00 UTC