動的メモリを用いたリプレイフリー継続低ランク適応
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2411.00623v3発表タイプ:差し替え
概要:本研究では、事前学習済みVision Transformer (ViT) が時間をかけて新しい下流タスクに逐次微調整を可能にする継続学習(CL)を再検討する。しかし、これらのモデルの規模が大きくなるにつれて、壊滅的な忘却はより深刻な課題となる。最近の研究では、CL手法とパラメータ効率の良い微調整(PEFT)との関連性が強調されており、PEFTは低ランク適応(LoRA)などの下流タスクへの適応のために、少量の学習可能パラメータのみを微調整することに焦点を当てている。LoRAはより速い収束を達成し、より少ない学習可能パラメータを必要とするが、継続学習の文脈ではほとんど研究されていない。このギャップに対処するため、直交LoRAアダプターと事前学習済み重みに並列な残差LoRAアダプターの両方を各層に導入する、Dual Low-Rank Adaptation (DualLoRA) と呼ばれる新しいPEFT-CL手法を提案する。これらのコンポーネントは、動的メモリ機構によって調整され、安定性と可塑性のバランスを取っている。さらに、タスクIDを自信を持って予測し、それに応じてモデルの出力を較正するスキームを提案する。ViTベースのモデルにおいて、DualLoRAは、複数のベンチマーク全体で既存のCL手法と比較して、精度、推論速度、トレーニングにおける計算効率において大幅な利点があることを示す。
原文(英語)を表示
Title (EN): Replay-Free Continual Low-Rank Adaptation with Dynamic Memory
arXiv:2411.00623v3 Announce Type: replace-cross
Abstract: We revisit continual learning~(CL), which enables pre-trained vision transformers (ViTs) to sequentially fine-tune on new downstream tasks over time. However, as the scale of these models increases, catastrophic forgetting remains a more serious challenge. Recent studies highlight a crossover between CL techniques and parameter-efficient fine-tuning (PEFT), which focuses on fine-tuning only a small set of trainable parameters to adapt to downstream tasks, such as low-rank adaptation (LoRA). While LoRA achieves faster convergence and requires fewer trainable parameters, it has seldom been explored in the context of continual learning. To address this gap, we propose a novel PEFT-CL method called Dual Low-Rank Adaptation (DualLoRA), which introduces both an orthogonal LoRA adapter and a residual LoRA adapter parallel to pre-trained weights in each layer. These components are orchestrated by a dynamic memory mechanism to strike a balance between stability and plasticity. Additionally, we propose a scheme to predict task identity with confidence and calibrate the model’s outputs accordingly. On ViT-based models, we demonstrate that DualLoRA offers significant advantages in accuracy, inference speed, and computation efficiency in training over existing CL methods across multiple benchmarks.
Published: 2025-09-24 19:00 UTC