線形トランスフォーマーは暗黙的に統一された数値アルゴリズムを発見する
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19702v1 発表種別:クロス
概要:数百万件のマスク付きブロック行列補完タスクに対し、線形アテンショントランスフォーマーを訓練しました。各プロンプトは、欠損ブロックが(i) スカラー予測ターゲット、または(ii) Nyström外挿法の未観測カーネルスライスとなる可能性のある、マスク付き低ランク行列です。モデルは入力と出力のペアと平均二乗誤差のみを受け取り、正規方程式、手動による反復処理、タスク間の関連性に関するヒントは一切与えられません。驚くべきことに、訓練後、代数的展開により、3つの異なる計算レジーム(完全可視性、ランク制限更新、分散計算)において、同一のパラメータフリー更新則が明らかになりました。本稿では、この更新則がフルバッチ問題において2次収束を達成し、分散反復計算の複雑さを削減し、ランク制限アテンションにおいても精度を維持することを証明します。したがって、欠損ブロックを修正するよう訓練されたトランスフォーマーは、予測、推定、Nyström外挿法にわたる統一されたリソース適応型反復ソルバーを暗黙的に発見しており、コンテキスト内学習の強力な能力を浮き彫りにしています。
原文(英語)を表示
Title (EN): Linear Transformers Implicitly Discover Unified Numerical Algorithms
arXiv:2509.19702v1 Announce Type: cross
Abstract: We train a linear attention transformer on millions of masked-block matrix completion tasks: each prompt is masked low-rank matrix whose missing block may be (i) a scalar prediction target or (ii) an unseen kernel slice of Nystr\”om extrapolation. The model sees only input-output pairs and a mean-squared loss; it is given no normal equations, no handcrafted iterations, and no hint that the tasks are related. Surprisingly, after training, algebraic unrolling reveals the same parameter-free update rule across three distinct computational regimes (full visibility, rank-limited updates, and distributed computation). We prove that this rule achieves second-order convergence on full-batch problems, cuts distributed iteration complexity, and remains accurate with rank-limited attention. Thus, a transformer trained solely to patch missing blocks implicitly discovers a unified, resource-adaptive iterative solver spanning prediction, estimation, and Nystr\”om extrapolation, highlighting a powerful capability of in-context learning.
Published: 2025-09-24 19:00 UTC