推論モデルは、非生産的な思考を識別し、そこから回復できるか?

推論モデルは、非生産的な思考を識別し、そこから回復できるか?

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2506.10979v2 発表種別:差し替え

要旨:最近の推論モデルは、推論の再考、バックトラック、自己検証能力を示しており、これは間違いを発見し、正確な解に到達する上で不可欠です。そこで自然と疑問となるのは、モデルがそのような自己再評価をどの程度効果的に実行できるかということです。本研究では、推論モデルが、無情報な漫然とした思考、質問に無関係な思考、質問をわずかに異なる質問に誤解する思考、そして間違った答えにつながる思考という4種類の非生産的な思考を、どの程度うまく特定し、そこから回復できるかを調査することで、この問題に取り組みます。その結果、モデルはほとんどの非生産的な思考を特定することに効果的であるものの、それらの思考が思考プロセスに注入されると、そこから回復することに苦労し、パフォーマンスが大幅に低下することが示されました。モデルは注入された無関係な思考の推論の流れを安易に継続する傾向があり、それらの自己再評価能力は一般的な「メタ認知」的認識からは程遠いことを示しています。さらに、大規模モデルは、推論の再評価を指示された場合でも、小規模モデルよりも短い無関係な思考から回復することに苦労するという、非/逆スケーリング傾向が観察されました。無関係な思考の注入を用いたジェイルブレイク実験により、これらの発見の影響を示し、最小規模のモデルが有害な応答を誘発する思考に最も邪魔されにくいことを示します。全体として、本研究の結果は、より優れた推論とより安全なシステムを開発するために、推論モデルの自己再評価能力の向上が必要であることを示唆しています。

原文(英語)を表示

Title (EN): How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?

arXiv:2506.10979v2 Announce Type: replace
Abstract: Recent reasoning models show the ability to reflect, backtrack, and self-validate their reasoning, which is crucial in spotting mistakes and arriving at accurate solutions. A natural question that arises is how effectively models can perform such self-reevaluation. We tackle this question by investigating how well reasoning models identify and recover from four types of unhelpful thoughts: uninformative rambling thoughts, thoughts irrelevant to the question, thoughts misdirecting the question as a slightly different question, and thoughts that lead to incorrect answers. We show that models are effective at identifying most unhelpful thoughts but struggle to recover from the same thoughts when these are injected into their thinking process, causing significant performance drops. Models tend to naively continue the line of reasoning of the injected irrelevant thoughts, which showcases that their self-reevaluation abilities are far from a general “meta-cognitive” awareness. Moreover, we observe non/inverse-scaling trends, where larger models struggle more than smaller ones to recover from short irrelevant thoughts, even when instructed to reevaluate their reasoning. We demonstrate the implications of these findings with a jailbreak experiment using irrelevant thought injection, showing that the smallest models are the least distracted by harmful-response-triggering thoughts. Overall, our findings call for improvement in self-reevaluation of reasoning models to develop better reasoning and safer systems.

Published: 2025-09-24 19:00 UTC


コメントする