思考・対話能力を向上させた言語モデル

思考・対話能力を向上させた言語モデル

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20357v1発表タイプ:新規

概要:検証可能な報酬を用いた強化学習(RLVR)は、数学やコードといった検証可能な領域におけるルールベースの報酬を用いることで、言語モデルの推論能力を向上させる。しかし、RLVRは、人間が日常的に推論するエッセイのアウトライン作成や食事計画作成といった、開かれた課題への汎化能力が限定的である。本論文は、RLVRパラダイムが検証可能な領域を超えて有効であることを示し、汎用的なチャット機能のための**RL** with **M**odel-rewarded **T**hinking (**RLMT**)を紹介する。多様な現実世界のプロンプトを用いて、RLMTは、応答の前にLMが長いCoT推論を生成することを要求し、RLHFで使用される選好に基づく報酬モデルに対してオンラインRLで最適化する。Llama-3.1-8BとQwen-2.5-7B(ベースとインストラクトの両方)の40回のトレーニングランと複数の最適化アルゴリズム(DPO、PPO、GRPO)において、RLMTは標準的なRLHFパイプラインを一貫して上回る。これには、3つのチャットベンチマーク(AlpacaEval2、WildBench、ArenaHardV2)で3~7ポイントの大幅な向上、創造的なライティングや一般知識などの他のタスクで1~3ポイントの改善が含まれる。我々の最良の8Bモデルは、チャットと創造的なライティングにおいてGPT-4oを上回り、Claude-3.7-Sonnet(Thinking)に匹敵する。RLMTは、SFTステージなしでベースモデルに直接適用することもでき、R1-Zeroトレーニングに似ている。注目すべきは、わずか7,000のプロンプトで、我々のRLMTレシピで訓練されたLlama-3.1-8Bベースは、2,500万以上の例を用いた複雑な多段階パイプラインで後トレーニングされたLlama-3.1-8B-Instructを上回る。最後に、訓練されたモデルがどのように応答を計画するかについての定性的および定量的な分析を示す。我々の結果は、後トレーニングパイプラインを再考し、より広範に思考を理解し活用するための今後の研究を促すものである。

原文(英語)を表示

Title (EN): Language Models that Think, Chat Better

arXiv:2509.20357v1 Announce Type: new
Abstract: Reinforcement learning with verifiable rewards (RLVR) improves language model reasoning by using rule-based rewards in verifiable domains such as mathematics and code. However, RLVR leads to limited generalization for open-ended tasks — such as writing outline essays or making meal plans — where humans reason routinely. This paper shows that the RLVR paradigm is effective beyond verifiable domains, and introduces **RL** with **M**odel-rewarded **T**hinking (**RLMT**) for general-purpose chat capabilities. Using diverse real-world prompts, RLMT requires LMs to generate long CoT reasoning before response, and optimizes them with online RL against a preference-based reward model used in RLHF. Across 40 training runs on Llama-3.1-8B and Qwen-2.5-7B (both base and instruct) and multiple optimization algorithms (DPO, PPO, and GRPO), RLMT consistently outperforms standard RLHF pipelines. This includes substantial gains of 3-7 points on three chat benchmarks (AlpacaEval2, WildBench, and ArenaHardV2), along with 1-3 point improvements on other tasks like creative writing and general knowledge. Our best 8B model surpasses GPT-4o in chat and creative writing and rivals Claude-3.7-Sonnet (Thinking). RLMT can also be applied directly to base models without an SFT stage, akin to R1-Zero training. Remarkably, with only 7K prompts, Llama-3.1-8B base trained with our RLMT recipe outperforms Llama-3.1-8B-Instruct post-trained with a complex multi-staged pipeline with 25M+ examples. We close with qualitative and quantitative analyses of how trained models plan their responses. Our results rethink the post-training pipeline and call upon future work to understand and employ thinking more broadly.

Published: 2025-09-24 19:00 UTC


コメントする