PromptCoT 2.0:大規模言語モデル推論のためのプロンプト合成のスケーリング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19894v1発表形式:クロス
概要:大規模言語モデル(LLM)は、会話システムから、数学オリンピックや競技プログラミングなどのタスクにおける強力な推論エンジンへと進化しています。パラメータのスケーリングとテスト時の計算が発展を促してきた一方、高品質なトレーニング問題の不足が主要なボトルネックとなっています。人手でキュレーションされたデータセットはコストが高く、規模も限定的であり、既存の合成コーパスはしばしば容易すぎたり、範囲が狭すぎたりします。PromptCoT 1.0は、プロンプト合成に根拠を注入することで問題の難易度を高めることを示しました。これを基に、本稿では、手作業によるヒューリスティックを期待値最大化(EM)ループで置き換える、スケーラブルなフレームワークであるPromptCoT 2.0を提案します。このループでは、根拠が反復的に改良され、プロンプト構築を導きます。これにより、従来のコーパスよりも難易度が高く、多様な問題が生成されます。生成されたプロンプトは、2つの事後トレーニング体制をサポートします。(1)より強力な教師なしで、検証可能なフィードバックを通じて強力なモデルが自律的に改善する自己対戦、(2)教師が蒸留したトレースから弱いモデルが学習する教師あり微調整(SFT)。広範な実験により、このアプローチの有効性が実証されました。自己対戦では、PromptCoT 2.0をQwen3-30B-A3B-Thinking-2507に適用することで、30B規模において新たな最先端の結果が得られ、AIME 24/25とHMMT 25で+4.4、+4.8、+5.3、LiveCodeBench v5/v6で+6.1と+5.0、Codeforcesで+35 Eloの向上を達成しました。SFTでは、合成プロンプトのみでQwen2.5-7B-Instructをトレーニングすることで、精度がAIME 24で73.1、AIME 25で65.6、LiveCodeBench v5で53.4に向上し、人間またはハイブリッドデータでトレーニングされたモデルを上回りました。さらに分析により、PromptCoT 2.0が根本的に難易度が高く、分布が異なる問題を生成することが確認されました。これらの結果は、プロンプト合成を推論をスケーリングするための新たな軸として確立し、PromptCoT 2.0を将来のオープンソースモデルのためのスケーラブルな基盤として位置づけています。実装はhttps://github.com/inclusionAI/PromptCoTで公開されています。
原文(英語)を表示
Title (EN): PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
arXiv:2509.19894v1 Announce Type: cross
Abstract: Large language models (LLMs) are evolving from conversational systems into strong reasoners for tasks such as Olympiad mathematics and competitive programming. While scaling parameters and test-time computation has driven progress, a key bottleneck is the lack of high-quality training problems: human-curated datasets are costly and limited, while existing synthetic corpora are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales into prompt synthesis increases problem difficulty. Building on this, we present PromptCoT 2.0, a scalable framework that replaces hand-crafted heuristics with an expectation-maximization (EM) loop, where rationales are iteratively refined to guide prompt construction. This produces problems that are both harder and more diverse than prior corpora. The synthetic prompts support two post-training regimes: (1) Self-Play, where strong models improve autonomously via verifiable feedback without stronger teachers; and (2) Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled traces. Extensive experiments demonstrate the effectiveness of this approach. In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME 24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5), surpassing models trained on human or hybrid data. Analyses further confirm that PromptCoT 2.0 yields fundamentally harder and distributionally distinct problems. These results establish prompt synthesis as a new axis for scaling reasoning and position PromptCoT 2.0 as a scalable foundation for future open-source models. The implementation is available at https://github.com/inclusionAI/PromptCoT.
Published: 2025-09-24 19:00 UTC