多様体仮説に基づく生成モデルの反転

多様体仮説に基づく生成モデルの反転

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20177v1発表タイプ:新規

概要:モデル反転攻撃(MIAs)は、訓練済みモデルからクラス代表サンプルを再構成することを目的とする。最近の生成型MIAsは、反転プロセスを導く画像事前確率を学習する敵対的生成ネットワークを利用し、高い視覚品質とプライベート訓練データへの高い忠実度を持つ再構成を実現している。その有効性の理由を探るため、まず合成入力に関する反転損失の勾配を調べ、これらの勾配は驚くほどノイズが多いことを発見した。更なる分析により、生成型反転はこれらの勾配を生成器多様体の接空間へ射影することで暗黙的にノイズ除去を行い、多様体から外れた成分を除去しながら、多様体と整列した情報的な方向を保持していることが明らかになった。我々の経験的測定によると、標準的な教師あり学習で訓練されたモデルでは、損失勾配はしばしばデータ多様体から大きな角度偏差を示し、クラス関連方向との整列性が低いことを示している。この観察結果から、我々の中心となる仮説、すなわちモデルの損失勾配が生成器多様体により近づくとMIAsに対してより脆弱になるという仮説が導かれる。この仮説を検証するために、このような整列を明示的に促進する新しい訓練目的関数を設計した。この洞察に基づき、更なる反転過程における勾配と多様体の整列を強化する訓練不要のアプローチを導入し、最先端の生成型MIAsに対して一貫した改善を実現した。

原文(英語)を表示

Title (EN): Generative Model Inversion Through the Lens of the Manifold Hypothesis

arXiv:2509.20177v1 Announce Type: new
Abstract: Model inversion attacks (MIAs) aim to reconstruct class-representative samples from trained models. Recent generative MIAs utilize generative adversarial networks to learn image priors that guide the inversion process, yielding reconstructions with high visual quality and strong fidelity to the private training data. To explore the reason behind their effectiveness, we begin by examining the gradients of inversion loss with respect to synthetic inputs, and find that these gradients are surprisingly noisy. Further analysis reveals that generative inversion implicitly denoises these gradients by projecting them onto the tangent space of the generator manifold, filtering out off-manifold components while preserving informative directions aligned with the manifold. Our empirical measurements show that, in models trained with standard supervision, loss gradients often exhibit large angular deviations from the data manifold, indicating poor alignment with class-relevant directions. This observation motivates our central hypothesis: models become more vulnerable to MIAs when their loss gradients align more closely with the generator manifold. We validate this hypothesis by designing a novel training objective that explicitly promotes such alignment. Building on this insight, we further introduce a training-free approach to enhance gradient-manifold alignment during inversion, leading to consistent improvements over state-of-the-art generative MIAs.

Published: 2025-09-24 19:00 UTC


コメントする