ベンチマークは本当に何を測定しているのか?AI能力の堅牢な推論のための枠組み
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.19590v1 発表種別:新規
要旨:ベンチマークデータを用いた生成モデルの評価は現在至るところで行われており、その結果はAIの能力に関する一般社会および科学界の期待を大きく左右する。しかしながら、その信頼性については懐疑論が高まっている。報告された精度がモデルの真の性能を実際に反映していることを、どのようにして知ることができるのか?評価はしばしば単純な測定値として提示されるが、実際には推論である。ベンチマークスコアを能力の証拠として扱うことは、既に能力とは何か、そしてそれがどのようにテストに現れるかという理論を前提としている。我々は、評価を推論として捉えるための原理的な枠組みを提案することで、このステップを明確にする:能力の理論から始め、それからそれを推定するための手法を導き出す。この視点は、心理測定学などの分野ではよく知られているが、AI評価においてはまだ一般的ではない。概念実証として、信頼性を損なう中心的な課題である摂動への感受性に取り組む。能力のモデルを定式化した上で、感受性と有限サンプルからの不確実性を考慮しながら能力を推論する手法を導入する。これには、サンプル複雑性を大幅に削減する適応型アルゴリズムも含まれる。これらの貢献は、ベンチマークを通じて測定されたAI能力のより信頼性が高く、信頼できる推定のための基礎を築く。
原文(英語)を表示
Title (EN): What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities
arXiv:2509.19590v1 Announce Type: new
Abstract: Evaluations of generative models on benchmark data are now ubiquitous, and their outcomes critically shape public and scientific expectations of AI’s capabilities. Yet growing skepticism surrounds their reliability. How can we know that a reported accuracy genuinely reflects a model’s true performance? Evaluations are often presented as simple measurements, but in reality they are inferences: to treat benchmark scores as evidence of capability is already to assume a theory of what capability is and how it manifests in a test. We make this step explicit by proposing a principled framework for evaluation as inference: begin from a theory of capability, and then derive methods for estimating it. This perspective, familiar in fields such as psychometrics, has not yet become commonplace in AI evaluation. As a proof of concept, we address a central challenge that undermines reliability: sensitivity to perturbations. After formulating a model of ability, we introduce methods that infer ability while accounting for uncertainty from sensitivity and finite samples, including an adaptive algorithm that significantly reduces sample complexity. Together, these contributions lay the groundwork for more reliable and trustworthy estimates of AI capabilities as measured through benchmarks.
Published: 2025-09-24 19:00 UTC