日付断片:時間的推論におけるトークン化の隠れたボトルネック
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.16088v3、発表タイプ:replace-cross
要旨:最新のBPEトークナイザは、多くの場合、カレンダーの日付を意味のない断片(例:20250312 → 202、503、12)に分割し、トークン数を増加させ、堅牢な時間的推論に必要な固有の構造を曖昧にします。本研究では、(1) 多桁の日付構成要素をトークナイザがどの程度忠実に保持しているかを測定する、シンプルでありながら解釈可能な指標である「日付断片化率」を導入し、(2) 3つの時間的推論タスク(コンテキストベースの日付解決、形式不変パズル、歴史的、現代的、そして未来の時間範囲にわたる日付算術)にわたる6500個の例からなるDateAugBenchスイートを公開し、(3) 層ごとのプローブと因果的アテンションホップ分析を通じて、大規模言語モデルが時間的推論のために月、日、年の構成要素の断片を繋ぎ合わせる新たな日付抽象化メカニズムを明らかにします。実験により、過剰な断片化は、歴史的および未来の日付など、一般的ではない日付での精度を最大10ポイント低下させることが示されました。さらに、モデルが大きくなるほど、日付断片を修復する新たな日付抽象化が速く達成されることがわかりました。最後に、大規模言語モデルが日付断片を組み立てる際に従う推論経路を観察し、それは典型的に人間の解釈(年→月→日)とは異なります。本研究のデータセットとコードは、[https://github.com/gagan3012/date-fragments](https://github.com/gagan3012/date-fragments)で公開しています。
原文(英語)を表示
Title (EN): Date Fragments: A Hidden Bottleneck of Tokenization for Temporal Reasoning
arXiv:2505.16088v3 Announce Type: replace-cross
Abstract: Modern BPE tokenizers often split calendar dates into meaningless fragments, e.g., 20250312 $\rightarrow$ 202, 503, 12, inflating token counts and obscuring the inherent structure needed for robust temporal reasoning. In this work, we (1) introduce a simple yet interpretable metric, termed date fragmentation ratio, that measures how faithfully a tokenizer preserves multi-digit date components; (2) release DateAugBench, a suite of 6500 examples spanning three temporal reasoning tasks: context-based date resolution, format-invariance puzzles, and date arithmetic across historical, contemporary, and future time periods; and (3) through layer-wise probing and causal attention-hop analyses, uncover an emergent date-abstraction mechanism whereby large language models stitch together the fragments of month, day, and year components for temporal reasoning. Our experiments show that excessive fragmentation correlates with accuracy drops of up to 10 points on uncommon dates like historical and futuristic dates. Further, we find that the larger the model, the faster the emergent date abstraction that heals date fragments is accomplished. Lastly, we observe a reasoning path that LLMs follow to assemble date fragments, typically differing from human interpretation (year $\rightarrow$ month $\rightarrow$ day). Our datasets and code are made publicly available \href{https://github.com/gagan3012/date-fragments}{here}.
Published: 2025-09-24 19:00 UTC