ExPe:外挿能力を持つ生成トランスフォーマーモデルのための正確な位置符号化

ExPe:外挿能力を持つ生成トランスフォーマーモデルのための正確な位置符号化

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19569v1 発表種別:新規

概要:本論文では、トランスフォーマーモデルにおける位置エンベディングに対する新たなアプローチ「Exact Positional Embeddings」(ExPE)を提案する。これは、訓練データよりも長いシーケンスにも外挿可能な絶対位置エンベディング手法である。従来のトランスフォーマーモデルは、絶対的または相対的な位置エンベディングを用いてトークンエンベディングに位置情報を組み込んでいるが、訓練中に見られたシーケンスよりも長いシーケンスへの外挿においてしばしば困難に直面する。提案手法は、エンベディングベクトルの特定の次元を上書きすることにより正確な位置情報をエンコードする新規なエンベディング戦略を用いることで、トークン位置のより精密な表現を可能にする。このアプローチは、元のエンベディングの整合性を維持するだけでなく、より長いシーケンスへのモデルの汎化能力も向上させる。因果言語モデルにおいて、ExPEエンベディングは、訓練で使用されたシーケンスよりも長いシーケンスでテストした場合、RotaryおよびSinusoidalエンベディングと比較して、パープレキシティを大幅に削減する。

原文(英語)を表示

Title (EN): ExPe: Exact Positional Encodings for Generative Transformer Models with Extrapolating Capabilities

arXiv:2509.19569v1 Announce Type: new
Abstract: This paper introduces a novel approach to position embeddings in transformer models, named “Exact Positional Embeddings” (ExPE). An absolute positional embedding method that can extrapolate to sequences of lengths longer than the ones it was trained on. Traditional transformer models rely on absolute or relative position embeddings to incorporate positional information into token embeddings, which often struggle with extrapolation to sequences longer than those seen during training. Our proposed method utilizes a novel embedding strategy that encodes exact positional information by overriding specific dimensions of the embedding vectors, thereby enabling a more precise representation of token positions. The proposed approach not only maintains the integrity of the original embeddings but also enhances the model’s ability to generalize to more extended sequences. In causal language modeling, our ExPE embeddings significantly reduce perplexity compared to rotary and sinusoidal embeddings, when tested on sequences longer than those used in training.

Published: 2025-09-24 19:00 UTC


コメントする