ニューラルネットワークにおけるソボレフ加速
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19773v1発表タイプ:クロス
要旨:損失関数に目標導関数を統合するSobolev訓練は、従来の$L^2$訓練と比較して、収束速度の向上と汎化性能の改善を示すことが分かっている。しかし、この訓練方法の基礎となるメカニズムは、部分的にしか解明されていない。本研究では、Sobolev訓練がRectified Linear Unit(ReLU)ネットワークの収束を加速することを証明する最初の厳密な理論的枠組みを提示する。ガウス入力と浅いアーキテクチャを持つ師弟関係の枠組みの下で、母集団勾配とヘッセ行列の正確な公式を導出し、損失ランドスケープのコンディショニングと勾配流の収束速度の改善を定量化する。広範な数値実験により、私たちの理論的知見が検証され、Sobolev訓練の利点が最新の深層学習タスクにまで及ぶことが示される。
原文(英語)を表示
Title (EN): Sobolev acceleration for neural networks
arXiv:2509.19773v1 Announce Type: cross
Abstract: Sobolev training, which integrates target derivatives into the loss functions, has been shown to accelerate convergence and improve generalization compared to conventional $L^2$ training. However, the underlying mechanisms of this training method remain only partially understood. In this work, we present the first rigorous theoretical framework proving that Sobolev training accelerates the convergence of Rectified Linear Unit (ReLU) networks. Under a student-teacher framework with Gaussian inputs and shallow architectures, we derive exact formulas for population gradients and Hessians, and quantify the improvements in conditioning of the loss landscape and gradient-flow convergence rates. Extensive numerical experiments validate our theoretical findings and show that the benefits of Sobolev training extend to modern deep learning tasks.
Published: 2025-09-24 19:00 UTC