任意の精度とスパース性でのニューラルネットワークの堅牢な訓練

任意の精度とスパース性でのニューラルネットワークの堅牢な訓練

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2409.09245v2、発表種別:置換クロス

要約:量子化とスパース化に固有の不連続な演算は、特に超低精度およびスパースな領域において、逆伝播に長年の障害をもたらしている。標準的なストレート・スルー・エスティメータ(STE)はこの問題に対処するために広く用いられているが、その量子化を考慮した順伝播と量子化を無視した逆伝播との間の、周知のミスマッチは、学習プロセスを損なう可能性のある制御不能な誤差につながる。本研究では、原理に基づいたリッジ回帰の目的関数から導出された、ノイズ除去型逆量子化変換を導入することで、この問題を解決する。この変換は、明示的な修正勾配パスを作成することにより、STEの代理勾配が回避する量子化誤差を、学習プロセス全体で認識し、その影響に強靭にする。本手法は、取るに足りない値をゼロにマッピングする量子化の一種としてスパース化を捉えることで、スパース化にも拡張できる。この統一された枠組みにより、既存のモデルを、幅広い精度とスパース化レベルで、既製のレシピを用いて訓練することが可能になり、他の手法が失敗するような、完全にバイナリ(A1W1)およびスパースな1ビット未満のネットワークの安定した訓練を実現する。本アプローチは最先端の結果をもたらし、超効率的なニューラルネットワークへの理論的に裏付けられた道筋を提供する。

原文(英語)を表示

Title (EN): Robust Training of Neural Networks at Arbitrary Precision and Sparsity

arXiv:2409.09245v2 Announce Type: replace-cross
Abstract: The discontinuous operations inherent in quantization and sparsification introduce a long-standing obstacle to backpropagation, particularly in ultra-low precision and sparse regimes. The standard Straight-Through Estimator (STE) is widely used to address this, but the well-understood mismatch between its quantization-aware forward pass and quantization-oblivious backward pass leads to unmanaged error that can corrupt the learning process. We solve this by introducing a denoising dequantization transform derived from a principled ridge regression objective. This transform makes the entire learning process aware of and robust to the quantization error that STE’s surrogate gradient bypasses, by creating an explicit, corrective gradient path. We extend this principle to sparsification by viewing it as a special form of quantization that maps insignificant values to zero. Our unified framework allows existing models to be trained at a wide spectrum of precisions and sparsity levels with off-the-shelf recipes, achieving stable training of fully binary (A1W1) and sparse sub-1-bit networks where other methods falter. This approach yields state-of-the-art results and provides a theoretically-grounded path to hyper-efficient neural networks.

Published: 2025-09-24 19:00 UTC


コメントする