判定がノイズとなる時:LLM 判定ベンチマークにおける設計上の欠陥が、妥当性を静かに損なう方法

判定がノイズとなる時:LLM 判定ベンチマークにおける設計上の欠陥が、妥当性を静かに損なう方法

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.20293v1 発表種別:クロス

要旨:LLMによる評価を用いたベンチマークは、複雑なモデルの挙動を評価するためにますます使用されていますが、その設計には、従来の正解データに基づくベンチマークには存在しない欠陥が導入されています。明確な目的と検証可能な構成がなければ、ベンチマークランキングは、実際には大部分がノイズであるにもかかわらず、高い信頼性を示すランキングを生み出す可能性があると主張します。これらの問題を診断するための2つのメカニズムを導入します。スキーマへの遵守度は、判断者の全体的な評価が明示的な評価スキーマによってどの程度説明されているかを定量化し、判断者が独自の基準から逸脱した場合に説明できない分散を明らかにします。心理測定学的妥当性は、内部整合性と弁別妥当性のシグナルを統合して、任意のベンチマーク実行における還元不可能な不確実性を定量化します。これらのツールをArena-Hard Autoに適用することにより、人気のある判断者間で深刻なスキーマの不整合と要因の崩壊が見つかりました。たとえば、DeepSeek-R1-32Bでは説明できない分散が90%を超え、ほとんどの基準で要因間の相関が0.93を超えています。また、Arena-Hard Autoで使用されているELO方式の集約は、真のランキングの不確実性を隠蔽し、崩壊することを示します。これらの結果は、妥当性を損なう設計上の欠陥を浮き彫りにし、より範囲が狭く、信頼性に配慮したLLMによる評価ベンチマークを構築するための実践的な原則を提供します。コードはhttps://anonymous.4open.science/r/judgment-to-noise-947D/README.mdで公開します。

原文(英語)を表示

Title (EN): When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

arXiv:2509.20293v1 Announce Type: cross
Abstract: LLM-judged benchmarks are increasingly used to evaluate complex model behaviors, yet their design introduces failure modes absent in conventional ground-truth based benchmarks. We argue that without tight objectives and verifiable constructions, benchmark rankings can produce high-confidence rankings that are in fact largely noise. We introduce two mechanisms to diagnose these issues. Schematic adherence quantifies how much of a judge’s overall verdict is explained by the explicit evaluation schema, revealing unexplained variance when judges deviate from their own rubric. Psychometric validity aggregates internal consistency and discriminant validity signals to quantify irreducible uncertainty in any benchmarking run. Applying these tools to Arena-Hard Auto, we find severe schema incoherence and factor collapse across popular judges: for example, unexplained variance exceeding 90 percent for DeepSeek-R1-32B and factor correlations above 0.93 for most criteria. We also show that the ELO-style aggregation used by Arena-Hard Auto collapses and masks genuine ranking uncertainty. Our results highlight design failures that undermine validity and offer actionable principles for building better-scoped, reliability-aware LLM-judged benchmarks. We release our code at https://anonymous.4open.science/r/judgment-to-noise-947D/README.md

Published: 2025-09-24 19:00 UTC


コメントする