多次元時系列データにおけるスケーラビリティとパフォーマンス両立のためのTransformerモデル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19471v1発表、新規。
概要:多変量時系列(MTS)データにおけるTransformerモデルのスケーラビリティのボトルネックは、変数の数にある。さらに、変数間の無差別の混合は、ノイズの蓄積と性能低下をもたらす可能性があるというコンセンサスが形成されつつある。これは、多くのMTSシステムに特徴的な情報シグナルのスパース性と、(異種)変数間の無差別の情報混合に起因する表現のずれによって悪化している可能性が高い。スケーラビリティと性能は、Transformer設計においてしばしば相反する利害関係として見なされるが、変数間の表現能力を戦略的に制約することで、MTSにおいて両方を同時に改善できることを示す。提案手法であるDelegate Token Attentionを用いたTransformer(DELTAformer)は、デリゲートトークンと呼ばれるものを用いて変数間のモデリングを制約し、それを使用して完全で制約のない時間内モデリングを行う。デリゲートトークンは、ネットワークを介して伝播される変数間の情報を厳しく選択することを強制する暗黙の正則化として機能する。その結果、DELTAformerは変数の数に対して線形にスケールする一方で、標準的なTransformerを凌駕し、ベンチマークとベースライン全体で最先端の性能を達成する。さらに、DELTAformerはノイズの多いMTS環境において、標準的なTransformerよりも関連するシグナルに焦点を当てることができ、全体として優れたノイズ耐性を示す。様々な実験の結果、モデル設計をMTS特有の課題を有利に活用するように調整することで、DELTAformerは線形スケーリングを達成しながら、標準的な2次的なTransformerよりも性能を向上させることができることが確認された。
原文(英語)を表示
Title (EN): Transformer Modeling for Both Scalability and Performance in Multivariate Time Series
arXiv:2509.19471v1 Announce Type: new
Abstract: Variable count is among the main scalability bottlenecks for transformer modeling in multivariate time series (MTS) data. On top of this, a growing consensus in the field points to indiscriminate inter-variable mixing as a potential source of noise-accumulation and performance degradation. This is likely exacerbated by sparsity of informative signals characteristic of many MTS systems coupled with representational misalignment stemming from indiscriminate information mixing between (heterogeneous) variables. While scalability and performance are often seen as competing interests in transformer design, we show that both can be improved simultaneously in MTS by strategically constraining the representational capacity of inter-variable mixing. Our proposed method, transformer with Delegate Token Attention (DELTAformer), constrains inter-variable modeling through what we call delegate tokens which are then used to perform full, unconstrained, inter-temporal modeling. Delegate tokens act as an implicit regularizer that forces the model to be highly selective about what inter-variable information is allowed to propagate through the network. Our results show that DELTAformer scales linearly with variable-count while actually outperforming standard transformers, achieving state-of-the-art performance across benchmarks and baselines. In addition, DELTAformer can focus on relevant signals better than standard transformers in noisy MTS environments and overall exhibit superior noise-resilience. Overall, results across various experiments confirm that by aligning our model design to leverage domain-specific challenges in MTS to our advantage, DELTAformer can simultaneously achieve linear scaling while actually improving its performance against standard, quadratic transformers.
Published: 2025-09-24 19:00 UTC