拡散カーリキュラム:画像誘導拡散による合成から現実への生成カーリキュラム学習

拡散カーリキュラム:画像誘導拡散による合成から現実への生成カーリキュラム学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2410.13674v3発表種類: replace-cross

要旨:低品質または希少なデータは、実際には深層ニューラルネットワークの訓練において大きな課題をもたらしてきた。従来のデータ拡張は、大きく異なる新たなデータを提供することができない一方、拡散モデルは、テキスト誘導プロンプトを通じて高品質で多様な合成データを生成することにより、自己進化型AIを構築するための新たな道を開く。しかし、テキストのみによる誘導では、合成画像と元の画像との近接性を制御できず、モデル性能に悪影響を与える分布外データが生じる。この限界を克服するために、合成画像と実画像の間の補間スペクトルを実現する画像誘導を研究する。より強い画像誘導では、生成された画像は訓練データと類似するが、学習が困難となる。一方、より弱い画像誘導では、合成画像はモデルにとって容易に学習できるようになるが、元のデータとの分布のずれが大きくなる。生成されたデータの全スペクトルを用いて、新たな「Diffusion Curriculum (DisCL)」を構築する。DisCLは、各訓練段階における画像合成の画像誘導レベルを調整する。モデルにとって困難なサンプルを特定し、重点的に学習させ、困難なデータ学習を改善するための合成画像の最適な誘導レベルを評価する。DisCLを、ロングテール(LT)分類と低品質データからの学習という2つの困難なタスクに適用する。高品質の低誘導画像に焦点を当て、高誘導画像(多様性または品質が低い可能性がある)の学習のウォームアップとして原型的な特徴を学習する。広範な実験により、DisCLをiWildCamデータセットに適用した場合、OODおよびIDマクロ精度がそれぞれ2.7%および2.1%向上することが示された。ImageNet-LTでは、DisCLはベースモデルのテールクラス精度を4.4%から23.64%に向上させ、全クラス精度を4.02%向上させた。

原文(英語)を表示

Title (EN): Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

arXiv:2410.13674v3 Announce Type: replace-cross
Abstract: Low-quality or scarce data has posed significant challenges for training deep neural networks in practice. While classical data augmentation cannot contribute very different new data, diffusion models opens up a new door to build self-evolving AI by generating high-quality and diverse synthetic data through text-guided prompts. However, text-only guidance cannot control synthetic images’ proximity to the original images, resulting in out-of-distribution data detrimental to the model performance. To overcome the limitation, we study image guidance to achieve a spectrum of interpolations between synthetic and real images. With stronger image guidance, the generated images are similar to the training data but hard to learn. While with weaker image guidance, the synthetic images will be easier for model but contribute to a larger distribution gap with the original data. The generated full spectrum of data enables us to build a novel “Diffusion Curriculum (DisCL)”. DisCL adjusts the image guidance level of image synthesis for each training stage: It identifies and focuses on hard samples for the model and assesses the most effective guidance level of synthetic images to improve hard data learning. We apply DisCL to two challenging tasks: long-tail (LT) classification and learning from low-quality data. It focuses on lower-guidance images of high-quality to learn prototypical features as a warm-up of learning higher-guidance images that might be weak on diversity or quality. Extensive experiments showcase a gain of 2.7% and 2.1% in OOD and ID macro-accuracy when applying DisCL to iWildCam dataset. On ImageNet-LT, DisCL improves the base model’s tail-class accuracy from 4.4% to 23.64% and leads to a 4.02% improvement in all-class accuracy.

Published: 2025-09-24 19:00 UTC


コメントする