確率制御による拡散モデルのファインチューニング:エントロピー正則化とその先

確率制御による拡散モデルのファインチューニング:エントロピー正則化とその先

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2403.06279v3発表タイプ:置換クロス

概要:本論文は、Ueharaらが最近提案した(arXiv:2402.15194, 2024)、連続時間拡散モデルにおけるエントロピー正則化ファインチューニングの問題に対し、厳密な取扱いを開発し提供することを目的とする。その考え方は、サンプル生成に確率的制御を用い、報酬崩壊を軽減するためにエントロピー正則化項を導入することである。また、本分析が一般の$f$-ダイバージェンス正則化項を用いたファインチューニングにどのように拡張できるかも示す。大規模テキスト・ツー・イメージモデル—Stable Diffusion v1.5—を用いた数値実験を行い、本手法の有効性を検証する。

原文(英語)を表示

Title (EN): Fine-tuning of diffusion models via stochastic control: entropy regularization and beyond

arXiv:2403.06279v3 Announce Type: replace-cross
Abstract: This paper aims to develop and provide a rigorous treatment to the problem of entropy regularized fine-tuning in the context of continuous-time diffusion models, which was recently proposed by Uehara et al. (arXiv:2402.15194, 2024). The idea is to use stochastic control for sample generation, where the entropy regularizer is introduced to mitigate reward collapse. We also show how the analysis can be extended to fine-tuning with a general $f$-divergence regularizer. Numerical experiments on large-scale text-to-image models–Stable Diffusion v1.5 are conducted to validate our approach.

Published: 2025-09-24 19:00 UTC


コメントする