判断の前に:自己参照によるLLM評価の改善への道筋

判断の前に:自己参照によるLLM評価の改善への道筋

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19880v1発表タイプ:クロス

要約:LLM-as-JudgeフレームワークはAI評価において普及しつつあるが、モデルの生成能力と判断能力の関係に関する研究結果は未だ不一致である。本研究では、11種類のモデルと21種類の多様なタスクにわたり、体系的なデータセットレベルとインスタンスレベルの分析を通じてこの関係を調査する。両方の能力は同じ基礎知識に依存するにもかかわらず、分析の結果、それらは弱くしか相関していないことが明らかになった。これは主に、LLMが評価対象となる回答に敏感であるためである。これに対処するため、モデル自身の回答を参照として利用する自己参照ガイド付き評価戦略を提案する。このアプローチは、生成能力と判断能力の相関を大幅に強化し、これらの能力を調整するための実用的な方法を提供し、評価タスクにおけるモデル選択の信頼できる指標となる。

原文(英語)を表示

Title (EN): Do Before You Judge: Self-Reference as a Pathway to Better LLM Evaluation

arXiv:2509.19880v1 Announce Type: cross
Abstract: LLM-as-Judge frameworks are increasingly popular for AI evaluation, yet research findings on the relationship between models’ generation and judgment abilities remain inconsistent. We investigate this relationship through systematic dataset- and instance-level analyses across 11 models and 21 diverse tasks. Despite both capabilities relying on the same underlying knowledge, our analyses reveal they are only weakly correlated, primarily due to LLMs’ sensitivity to the responses being judged. To address this, we propose a self-reference-guided evaluation strategy that leverages a model’s own answers as references. This approach significantly strengthens the correlation between generation and judgment abilities, offering a practical path to align these skills and providing a reliable proxy for model selection in evaluation tasks.

Published: 2025-09-24 19:00 UTC


コメントする