オフラインLLM評価の不備:モデル挙動におけるパーソナライゼーションへの考慮が必要
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19364v1 発表種別:クロス
要約:言語モデルに対する標準的なオフライン評価、すなわちモデルによって行われる一連の独立したステートレスな推論は、パーソナライゼーションがモデルの挙動を根本的に変える実際の使い方を捉えきれません。例えば、同じ言語モデルに対して同一のベンチマーク質問をしても、ステートレスなシステム、あるユーザーのチャットセッション、別のユーザーのチャットセッションにおいて、著しく異なる回答が生成される場合があります。本研究では、ChatGPTとGeminiの800人の実ユーザーにベンチマークおよびその他の提供された質問をチャットインターフェースに入力してもらうことで実施されたフィールド評価とオフライン評価を比較することにより、この現象を実証する経験的証拠を示します。
原文(英語)を表示
Title (EN): The Inadequacy of Offline LLM Evaluations: A Need to Account for Personalization in Model Behavior
arXiv:2509.19364v1 Announce Type: cross
Abstract: Standard offline evaluations for language models — a series of independent, state-less inferences made by models — fail to capture how language models actually behave in practice, where personalization fundamentally alters model behavior. For instance, identical benchmark questions to the same language model can produce markedly different responses when prompted to a state-less system, in one user’s chat session, or in a different user’s chat session. In this work, we provide empirical evidence showcasing this phenomenon by comparing offline evaluations to field evaluations conducted by having 800 real users of ChatGPT and Gemini pose benchmark and other provided questions to their chat interfaces.
Published: 2025-09-24 19:00 UTC