残差接続の再検討:安定かつ効率的な深層ネットワークのための直交更新

残差接続の再検討:安定かつ効率的な深層ネットワークのための直交更新

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.11881v2発表タイプ:置換 arXiv:2505.11881v2発表タイプ:クロス置換

要旨:残差接続は深層ニューラルネットワークにおいて極めて重要であり、勾配消失問題を軽減することでより深いネットワークを可能にする。しかし、標準的な残差更新では、モジュールの出力が直接入力ストリームに追加される。これは、既存のストリーム方向を主に強化または調整する更新につながる可能性があり、全く新しい特徴を学習するためのモジュールの能力を十分に活用できない可能性がある。本研究では、直交残差更新を提案する:モジュールの出力を入力ストリームに対して分解し、このストリームに直交する成分のみを追加する。この設計は、モジュールが主に新しい表現方向に寄与するように導き、より豊かな特徴学習を促進しながら、より効率的な学習を促進することを目的とする。様々なアーキテクチャ(ResNetV2、Vision Transformers)とデータセット(CIFARs、TinyImageNet、ImageNet-1k)において、提案する直交更新戦略が汎化精度と学習安定性を向上させることを示す。例えば、ImageNet-1kにおけるViT-Bで+4.3%pのtop-1精度向上を達成した。

原文(英語)を表示

Title (EN): Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

arXiv:2505.11881v2 Announce Type: replace-cross
Abstract: Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module’s output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module’s capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module’s output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.

Published: 2025-09-24 19:00 UTC


コメントする