列車訓練不能の統一的ノイズ曲率観

列車訓練不能の統一的ノイズ曲率観

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19698v1発表種別:クロス

要旨:継続学習における学習不能(LoT)は、タスクの進化に伴い勾配ステップがもはや改善をもたらさなくなり、十分な能力と監督にもかかわらず精度が停滞または低下する際に発生する。我々はAdamを用いて発生するLoTを最適化の観点から分析し、ヘッセ行列のランク、鋭さレベル、重みまたは勾配ノルム、勾配対パラメータ比、単位符号エントロピーなどの単一指標は信頼できる予測因子ではないことを見出した。代わりに、我々は2つの補完的な基準を導入する:バッチサイズを考慮した勾配ノイズ限界と曲率変動制御限界であり、これらは層ごとの予測閾値に統合され、学習可能性の挙動を予測する。この閾値を用いて、各層の有効ステップを安全な限界以下に維持する単純な層ごとのスケジューラを構築し、連結ReLU(CReLU)、Wasserstein正則化、およびL2重み減衰において、標準的な減衰を反映した学習済み学習率軌跡とともに、学習を安定化し精度を向上させる。

原文(英語)を表示

Title (EN): A Unified Noise-Curvature View of Loss of Trainability

arXiv:2509.19698v1 Announce Type: cross
Abstract: Loss of trainability (LoT) in continual learning occurs when gradient steps no longer yield improvement as tasks evolve, so accuracy stalls or degrades despite adequate capacity and supervision. We analyze LoT incurred with Adam through an optimization lens and find that single indicators such as Hessian rank, sharpness level, weight or gradient norms, gradient-to-parameter ratios, and unit-sign entropy are not reliable predictors. Instead we introduce two complementary criteria: a batch-size-aware gradient-noise bound and a curvature volatility-controlled bound that combine into a per-layer predictive threshold that anticipates trainability behavior. Using this threshold, we build a simple per-layer scheduler that keeps each layers effective step below a safe limit, stabilizing training and improving accuracy across concatenated ReLU (CReLU), Wasserstein regularization, and L2 weight decay, with learned learning-rate trajectories that mirror canonical decay.

Published: 2025-09-24 19:00 UTC


コメントする