マンバ・モジュレーション:マンバの長さ一般化について

マンバ・モジュレーション:マンバの長さ一般化について

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19633v1発表形式:クロス

要旨:Transformerモデルにおけるアテンション機構の2乗の計算複雑性から、状態空間モデルなど、2乗未満のスケーリングを持つ代替アーキテクチャの開発が進められています。その中でもMambaは、様々な言語モデリングタスクにおいて最先端の結果を達成する主要なアーキテクチャとして台頭しています。しかし、Mambaのパフォーマンスは、事前学習時に見られたものよりも長いコンテキストに適用されると著しく低下し、コンテキスト長の拡張に対して鋭敏な感度を示すことが明らかになっています。詳細な分析を通じて、この制限は状態空間ダイナミクスの分布外挙動、特に状態遷移行列$\mathbf{A}$のパラメータ化に起因することを明らかにしました。最近の研究が、この感度を離散化時間ステップの消失した累積$\exp(-\sum_{t=1}^N\Delta_t)$に帰しているのに対し、我々は入力長が無限大に近づく際の状態収束挙動と遷移行列$\mathbf{A}$のスペクトルとの関係を確立し、長さ拡張におけるその役割について十分に裏付けられた説明を提供します。次に、この課題を克服するために、事前学習済みMambaモデルにスペクトルスケーリングを適用することで、各層の$\mathbf{A}$行列のスペクトルを選択的に調整することにより、堅牢な長コンテキスト汎化を可能にするアプローチを提案します。これは、単に$\Delta_t$を調整するだけでは失敗する設定において、パフォーマンスを大幅に向上させることができ、我々の洞察を検証し、構造化された遷移行列を持つ状態空間モデルの長さ汎化を改善するための道を提供します。

原文(英語)を表示

Title (EN): Mamba Modulation: On the Length Generalization of Mamba

arXiv:2509.19633v1 Announce Type: cross
Abstract: The quadratic complexity of the attention mechanism in Transformer models has motivated the development of alternative architectures with sub-quadratic scaling, such as state-space models. Among these, Mamba has emerged as a leading architecture, achieving state-of-the-art results across a range of language modeling tasks. However, Mamba’s performance significantly deteriorates when applied to contexts longer than those seen during pre-training, revealing a sharp sensitivity to context length extension. Through detailed analysis, we attribute this limitation to the out-of-distribution behaviour of its state-space dynamics, particularly within the parameterization of the state transition matrix $\mathbf{A}$. Unlike recent works which attribute this sensitivity to the vanished accumulation of discretization time steps, $\exp(-\sum_{t=1}^N\Delta_t)$, we establish a connection between state convergence behavior as the input length approaches infinity and the spectrum of the transition matrix $\mathbf{A}$, offering a well-founded explanation of its role in length extension. Next, to overcome this challenge, we propose an approach that applies spectrum scaling to pre-trained Mamba models to enable robust long-context generalization by selectively modulating the spectrum of $\mathbf{A}$ matrices in each layer. We show that this can significantly improve performance in settings where simply modulating $\Delta_t$ fails, validating our insights and providing avenues for better length generalization of state-space models with structured transition matrices.

Published: 2025-09-24 19:00 UTC


コメントする