潜在的繰り返し改良フロー:少ショット生成のための幾何拘束アプローチ
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19903v1 発表タイプ: 新規
概要: 少量データからの高品質かつ多様なサンプルの生成であるFew-shot generationは、生成モデルにおける大きな課題として残されている。既存のゼロから学習する手法は、過学習やモード崩壊を克服できないことが多く、大規模モデルのファインチューニングはバイアスを引き継ぎ、潜在空間の重要な幾何学的構造を無視する可能性がある。これらの限界に対処するため、幾何学的に構造化された多様体の漸進的な高密度化としてFew-shot generationを再定義する、新たな手法であるLatent Iterative Refinement Flow (LIRF)を提案する。LIRFは、新規な**多様体保存損失** $L_{\text{manifold}}$を用いて訓練されたオートエンコーダーを用いて安定した潜在空間を構築する。この損失関数は、潜在空間が入力データの幾何学的および意味的な対応関係を維持することを保証する。これに基づき、反復的な生成-修正-拡張サイクルを提案する。このサイクルでは、候補サンプルは幾何学的**修正演算子**によって洗練される。これは、多様性を維持しながらサンプルをデータ多様体へと引き寄せる、証明可能な収縮写像である。また、生成されたデータ多様体と真のデータ多様体間のハウスドルフ距離の予測可能な減少を示す**収束定理**も提示する。さらに、AFHQ-Catを用いた高解像度画像の生成により、本フレームワークのスケーラビリティを実証する。アブレーションスタディは、多様体保存潜在空間と収縮的修正機構の両方が、この成功の重要な構成要素であることを確認している。最終的に、LIRFは、理論的に裏付けられただけでなく、実際にも非常に効果的な、データ不足の生成モデルに対する解決策を提供する。
原文(英語)を表示
Title (EN): Latent Iterative Refinement Flow: A Geometric-Constrained Approach for Few-Shot Generation
arXiv:2509.19903v1 Announce Type: new
Abstract: Few-shot generation, the synthesis of high-quality and diverse samples from limited training data, remains a significant challenge in generative modeling. Existing methods trained from scratch often fail to overcome overfitting and mode collapse, and fine-tuning large models can inherit biases while neglecting the crucial geometric structure of the latent space. To address these limitations, we introduce Latent Iterative Refinement Flow (LIRF), a novel approach that reframes few-shot generation as the progressive densification of geometrically structured manifold. LIRF establishes a stable latent space using an autoencoder trained with our novel \textbf{manifold-preservation loss} $L_{\text{manifold}}$. This loss ensures that the latent space maintains the geometric and semantic correspondence of the input data. Building on this, we propose an iterative generate-correct-augment cycle. Within this cycle, candidate samples are refined by a geometric \textbf{correction operator}, a provably contractive mapping that pulls samples toward the data manifold while preserving diversity. We also provide the \textbf{Convergence Theorem} demonstrating a predictable decrease in Hausdorff distance between generated and true data manifold. We also demonstrate the framework’s scalability by generating coherent, high-resolution images on AFHQ-Cat. Ablation studies confirm that both the manifold-preserving latent space and the contractive correction mechanism are critical components of this success. Ultimately, LIRF provides a solution for data-scarce generative modeling that is not only theoretically grounded but also highly effective in practice.
Published: 2025-09-24 19:00 UTC