思考増強事前学習

思考増強事前学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20186v1発表、新規。

概要:本論文は、思考過程を既存のテキストデータに追加することで、大規模言語モデル(LLM)訓練のデータ効率を向上させる、シンプルかつスケーラブルなアプローチを紹介する。LLMの事前学習に必要な計算量はかつてない速度で増加している一方、高品質データの可用性は限定されている。そのため、利用可能なデータの効用を最大化することが重要な研究課題となっている。主な障害として、固定されたモデル容量では、特定の高品質トークンを学習することが困難であることが挙げられる。単一トークンの根拠は非常に複雑で深遠である可能性があるためである。この問題に対処するため、本稿では、自動生成された思考過程でテキストを増強する普遍的な手法であるThinking augmented Pre-Training(TPT)を提案する。このような増強は、訓練データの量を効果的に増加させ、段階的な推論と分解を通じて高品質トークンをより学習しやすくする。1000億トークンまでの様々な訓練構成において、制約のあるデータと豊富なデータの両方を使用した事前学習、および強力なオープンソースチェックポイントからの中間学習を含む、TPTを適用する。実験結果から、本手法は様々なモデルサイズとファミリーにおいてLLMのパフォーマンスを大幅に向上させることが示された。特に、TPTはLLM事前学習のデータ効率を3倍に向上させる。30億パラメータのモデルでは、いくつかの困難な推論ベンチマークにおいて、学習後のパフォーマンスを10%以上向上させた。

原文(英語)を表示

Title (EN): Thinking Augmented Pre-training

arXiv:2509.20186v1 Announce Type: new
Abstract: This paper introduces a simple and scalable approach to improve the data efficiency of large language model (LLM) training by augmenting existing text data with thinking trajectories. The compute for pre-training LLMs has been growing at an unprecedented rate, while the availability of high-quality data remains limited. Consequently, maximizing the utility of available data constitutes a significant research challenge. A primary impediment is that certain high-quality tokens are difficult to learn given a fixed model capacity, as the underlying rationale for a single token can be exceptionally complex and deep. To address this issue, we propose Thinking augmented Pre-Training (TPT), a universal methodology that augments text with automatically generated thinking trajectories. Such augmentation effectively increases the volume of the training data and makes high-quality tokens more learnable through step-by-step reasoning and decomposition. We apply TPT across diverse training configurations up to $100$B tokens, encompassing pre-training with both constrained and abundant data, as well as mid-training from strong open-source checkpoints. Experimental results indicate that our method substantially improves the performance of LLMs across various model sizes and families. Notably, TPT enhances the data efficiency of LLM pre-training by a factor of $3$. For a $3$B parameter model, it improves the post-training performance by over $10\%$ on several challenging reasoning benchmarks.

Published: 2025-09-24 19:00 UTC


コメントする