残差接続の再検討:安定かつ効率的な深層ネットワークのための直交更新

残差接続の再検討:安定かつ効率的な深層ネットワークのための直交更新

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.11881v2 発表種別:置換クロス

概要:残差接続は深層ニューラルネットワークにおいて極めて重要であり、勾配消失問題を軽減することでより深いネットワークを可能にする。しかし、標準的な残差更新では、モジュールの出力が直接入力ストリームに加算される。これにより、既存のストリーム方向を主に強化または調整する更新が行われ、全く新しい特徴を学習するためのモジュールの能力が十分に活用されない可能性がある。本研究では、直交残差更新を提案する:モジュールの出力を入力ストリームに対して分解し、このストリームに直交する成分のみを加算する。この設計は、モジュールが主に新しい表現方向に寄与するように導き、より豊かな特徴学習を促進するとともに、より効率的な訓練を促進することを目的とする。様々なアーキテクチャ(ResNetV2、Vision Transformers)とデータセット(CIFARs、TinyImageNet、ImageNet-1k)において、提案する直交更新戦略が汎化精度と訓練安定性を向上させることを示す。例えば、ImageNet-1kにおけるViT-Bで+4.3%pのtop-1精度向上を達成した。

原文(英語)を表示

Title (EN): Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

arXiv:2505.11881v2 Announce Type: replace-cross
Abstract: Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module’s output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module’s capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module’s output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.

Published: 2025-09-24 19:00 UTC


コメントする