ExPe:外挿能力を持つ生成トランスフォーマーモデルのための正確な位置エンコーディング

ExPe:外挿能力を持つ生成トランスフォーマーモデルのための正確な位置エンコーディング

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19569v1 発表種別:新規

概要:本論文では、トランスフォーマーモデルにおける位置エンベディングに対する新たな手法、「Exact Positional Embeddings」(ExPE) を提案する。これは、訓練データよりも長いシーケンスにも外挿可能な絶対位置エンベディング手法である。従来のトランスフォーマーモデルは、絶対的または相対的な位置エンベディングを用いてトークンエンベディングに位置情報を組み込んでいるが、訓練時に見たシーケンスよりも長いシーケンスへの外挿においてしばしば困難を抱える。提案手法は、エンベディングベクトルの特定の次元を上書きすることにより正確な位置情報をエンコードする新規なエンベディング戦略を用いることで、トークンの位置のより精密な表現を可能にする。提案手法は、元のエンベディングの完全性を維持するだけでなく、より長いシーケンスへのモデルの一般化能力も向上させる。因果言語モデルにおいて、ExPEエンベディングは、訓練で使用されたシーケンスよりも長いシーケンスでテストした場合、RotaryおよびSinusoidalエンベディングと比較して、パープレキシティを大幅に低減する。

原文(英語)を表示

Title (EN): ExPe: Exact Positional Encodings for Generative Transformer Models with Extrapolating Capabilities

arXiv:2509.19569v1 Announce Type: new
Abstract: This paper introduces a novel approach to position embeddings in transformer models, named “Exact Positional Embeddings” (ExPE). An absolute positional embedding method that can extrapolate to sequences of lengths longer than the ones it was trained on. Traditional transformer models rely on absolute or relative position embeddings to incorporate positional information into token embeddings, which often struggle with extrapolation to sequences longer than those seen during training. Our proposed method utilizes a novel embedding strategy that encodes exact positional information by overriding specific dimensions of the embedding vectors, thereby enabling a more precise representation of token positions. The proposed approach not only maintains the integrity of the original embeddings but also enhances the model’s ability to generalize to more extended sequences. In causal language modeling, our ExPE embeddings significantly reduce perplexity compared to rotary and sinusoidal embeddings, when tested on sequences longer than those used in training.

Published: 2025-09-24 19:00 UTC


コメントする