モーメンタム付き確率的勾配降下法の収束を改善するバッチサイズの増加
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2501.08883v2 発表種別:差し替え
要旨: モメンタム項を追加した確率的勾配降下法 (SGDM) は、理論的にも実践的にも広く研究されている。理論的研究では、学習率とモメンタム重みの設定がSGDMの収束性に影響を与えることが示されている。一方、実践的な研究では、バッチサイズの設定がSGDMのパフォーマンスに大きく影響することが示されている。本論文では、深層ニューラルネットワークの訓練に頻繁に使用される、一定の学習率と一定のモメンタム重みを有するミニバッチSGDMに焦点を当てる。深層ニューラルネットワークの訓練において、一定のバッチサイズを使用することが経験損失の全勾配ノルムの期待値を常に最小化しない一方、増加するバッチサイズを使用することで確実に最小化されることを理論的に示す。すなわち、増加するバッチサイズを使用することでミニバッチSGDMの収束性が向上する。また、数値結果により我々の分析を裏付ける。具体的には、増加するバッチサイズを用いたミニバッチSGDMは、一定のバッチサイズを用いた場合よりも定常点に高速に収束し、計算コストも削減することを示す。数値実験で使用された最適化アルゴリズムのPython実装は、https://github.com/iiduka-researches/NSHB_increasing_batchsize_acml25/ で公開している。
原文(英語)を表示
Title (EN): Increasing Batch Size Improves Convergence of Stochastic Gradient Descent with Momentum
arXiv:2501.08883v2 Announce Type: replace
Abstract: Stochastic gradient descent with momentum (SGDM), in which a momentum term is added to SGD, has been well studied in both theory and practice. The theoretical studies show that the settings of the learning rate and momentum weight affect the convergence of SGDM. Meanwhile, the practical studies have shown that the batch-size setting strongly affects the performance of SGDM. In this paper, we focus on mini-batch SGDM with a constant learning rate and constant momentum weight, which is frequently used to train deep neural networks. We show theoretically that using a constant batch size does not always minimize the expectation of the full gradient norm of the empirical loss in training a deep neural network, whereas using an increasing batch size definitely minimizes it; that is, an increasing batch size improves the convergence of mini-batch SGDM. We also provide numerical results supporting our analyses, indicating specifically that mini-batch SGDM with an increasing batch size converges to stationary points faster than with a constant batch size, while also reducing computational cost. Python implementations of the optimizers used in the numerical experiments are available at https://github.com/iiduka-researches/NSHB_increasing_batchsize_acml25/.
Published: 2025-09-24 19:00 UTC