STRIVE:主張検証における自己改善のための構造化推論
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2502.11959v2 発表種別:差し替え
要旨:主張検証は、主張が証拠によって裏付けられるか、または反駁されるかを決定するタスクです。推論連鎖を生成し、正しい結果につながるものを選んで訓練する自己改善手法は、数学の問題解決などのタスクで成功を収めてきました。しかし、主張検証においては、このアプローチは苦戦しています。質の低い推論連鎖は、二値の真理値ラベルに誤って一致し、自己改善プロセスに誤った推論を導入し、最終的に性能を低下させる可能性があります。これに対処するために、本稿では、構造化推論による自己改善検証手法STRIVEを提案します。本手法は、主張分解、エンティティ分析、および証拠根拠検証という構造化推論設計を導入します。これらの構成要素は、推論の質を向上させ、エラーを削減し、自己改善のための追加の監視信号を提供します。STRIVEは、構造化推論設計を学習するために、少量の注釈付き例で基本モデルを微調整するウォームアップフェーズから始まります。その後、すべての訓練例に対して推論連鎖を生成し、正しく構造的に健全なもののみを選択して、その後の自己改善訓練に使用します。STRIVEは、ベースモデルに対して31.4%、Chain of Thoughtに対して20.7%の性能向上をHOVERデータセットで達成し、その有効性を示しました。
原文(英語)を表示
Title (EN): STRIVE: Structured Reasoning for Self-Improvement in Claim Verification
arXiv:2502.11959v2 Announce Type: replace
Abstract: Claim verification is the task of determining whether a claim is supported or refuted by evidence. Self-improvement methods, where reasoning chains are generated and those leading to correct results are selected for training, have succeeded in tasks like mathematical problem solving. However, in claim verification, this approach struggles. Low-quality reasoning chains may falsely match binary truth labels, introducing faulty reasoning into the self-improvement process and ultimately degrading performance. To address this, we propose STRIVE: Structured Reasoning for Self-Improved Verification. Our method introduces a structured reasoning design with Claim Decomposition, Entity Analysis, and Evidence Grounding Verification. These components improve reasoning quality, reduce errors, and provide additional supervision signals for self-improvement. STRIVE begins with a warm-up phase, where the base model is fine-tuned on a small number of annotated examples to learn the structured reasoning design. It is then applied to generate reasoning chains for all training examples, selecting only those that are correct and structurally sound for subsequent self-improvement training. We demonstrate that STRIVE achieves significant improvements over baseline models, with a 31.4% performance gain over the base model and 20.7% over Chain of Thought on the HOVER datasets, highlighting its effectiveness.
Published: 2025-09-24 19:00 UTC