確率的シグネチャ:言語モデルにおけるデータ意味論と埋め込み構造の橋渡し
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20124v1 発表種別:新規
要約:言語モデルの埋め込み空間は、意味関係を捉えていると広く信じられていますが、例えば、数字の埋め込みはしばしば自然な順序に対応する順序構造を示します。しかし、そのような構造形成を促進するメカニズムは、未だ十分に理解されていません。本研究では、データ分布を通して埋め込み構造を解釈します。トークン間の意味関係を反映する確率的特徴量を提案します。線形モデルとフィードフォワードネットワークを用いた合成加算タスクに関する実験と、勾配流動ダイナミクスの理論的解析を組み合わせることで、これらの確率的特徴量が埋め込み構造に大きな影響を与えることを明らかにします。さらに、Pileコーパスのサブセットを用いてQwen2.5アーキテクチャを訓練することで、大規模言語モデル(LLM)への分析を一般化します。その結果、確率的特徴量は埋め込み構造と忠実に整合しており、特に埋め込み間の強いペアワイズ類似性を捉えていることが示されました。本研究は、データ分布がどのように埋め込み構造の形成を導くのかというメカニズムを解明し、埋め込みの組織化と意味パターン間の関係に関する新たな理解を確立します。
原文(英語)を表示
Title (EN): Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models
arXiv:2509.20124v1 Announce Type: new
Abstract: The embedding space of language models is widely believed to capture the semantic relationships; for instance, embeddings of digits often exhibit an ordered structure that corresponds to their natural sequence. However, the mechanisms driving the formation of such structures remain poorly understood. In this work, we interpret the embedding structures via the data distribution. We propose a set of probability signatures that reflect the semantic relationships among tokens. Through experiments on the composite addition tasks using the linear model and feedforward network, combined with theoretical analysis of gradient flow dynamics, we reveal that these probability signatures significantly influence the embedding structures. We further generalize our analysis to large language models (LLMs) by training the Qwen2.5 architecture on the subsets of the Pile corpus. Our results show that the probability signatures are faithfully aligned with the embedding structures, particularly in capturing strong pairwise similarities among embeddings. Our work uncovers the mechanism of how data distribution guides the formation of embedding structures, establishing a novel understanding of the relationship between embedding organization and semantic patterns.
Published: 2025-09-24 19:00 UTC