キャリブレーテッド・リーゾニング:動的かつ効率的な問題解決のための説明的検証ツール
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19681v1、発表種別:新規
要旨:高度なテスト時計算戦略は推論モデルのスケーリングに不可欠であるが、その有効性はモデルの自己評価の低さによって制限されている。本稿では、強化学習(GRPO)を用いて訓練された、較正された信頼度スコアと生成された解に対する自然言語による推論を生成するペアワイズ説明検証器を提案する。提案手法は、best-of-nや自己熟考といったテスト時戦略の精度と効率を向上させる。特に、両方の候補解が同様に不正確である場合など、標準的な手法である多数決が失敗するような困難な失敗モードの特定に優れている。
原文(英語)を表示
Title (EN): Calibrated Reasoning: An Explanatory Verifier for Dynamic and Efficient Problem-Solving
arXiv:2509.19681v1 Announce Type: new
Abstract: Advanced test-time computing strategies are essential for scaling reasoning models, but their effectiveness is capped by the models’ poor self-evaluation. We propose a pairwise Explanatory Verifier, trained via reinforcement learning (GRPO), that produces calibrated confidence scores and associated natural language reasoning for generated solutions. Our verifier improves the accuracy and efficiency of test-time strategies like best-of-n and self-reflection. Crucially, it excels at identifying challenging failure modes, such as when both candidate solutions are identically incorrect, succeeding where standard methods like majority voting fail.
Published: 2025-09-24 19:00 UTC