言語モデルは自身の言語知識に関する内省に失敗する

言語モデルは自身の言語知識に関する内省に失敗する

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2503.07513v3 発表種別: replace-cross

要旨: 近年、大規模言語モデル (LLM) が自身の内部状態を内省できるか否かという点に関心が集まっている。そのような能力は、LLMの解釈可能性を高め、また言語学における標準的な内省的手法をモデルの文法的知識の評価に用いることの妥当性を検証する(例えば、「この文法は正しいですか?」と尋ねる)上でも重要である。本研究では、内省が理論的に興味深い2つの領域、すなわち文法的知識と単語予測において、21のオープンソースLLMにわたる内省の出現を体系的に調査する。重要な点として、両方の領域において、モデルの内部言語知識は、文字列確率の直接測定によって理論的に裏付けられる。その後、メタ言語的プロンプトに対するモデルの応答が、その内部知識を忠実に反映しているかどうかを評価する。本研究では、モデルのプロンプト応答が、ほぼ同一の内部知識を持つ別のモデルによって予測されるものを超えて、モデル自身の文字列確率を予測する程度を測る新たな内省尺度を提案する。メタ言語的プロンプトと確率比較の両方によって高いタスク精度が得られる一方で、LLMが特権的な「自己アクセス」を持っているという証拠は見つからなかった。一般的なタスクを用い、モデルの類似性を制御し、幅広いオープンソースモデルを評価することにより、LLMは内省できないことを示し、プロンプト応答をモデルの言語学的一般化と混同すべきではないという議論に新たな証拠を追加する。

原文(英語)を表示

Title (EN): Language Models Fail to Introspect About Their Knowledge of Language

arXiv:2503.07513v3 Announce Type: replace-cross
Abstract: There has been recent interest in whether large language models (LLMs) can introspect about their own internal states. Such abilities would make LLMs more interpretable, and also validate the use of standard introspective methods in linguistics to evaluate grammatical knowledge in models (e.g., asking “Is this sentence grammatical?”). We systematically investigate emergent introspection across 21 open-source LLMs, in two domains where introspection is of theoretical interest: grammatical knowledge and word prediction. Crucially, in both domains, a model’s internal linguistic knowledge can be theoretically grounded in direct measurements of string probability. We then evaluate whether models’ responses to metalinguistic prompts faithfully reflect their internal knowledge. We propose a new measure of introspection: the degree to which a model’s prompted responses predict its own string probabilities, beyond what would be predicted by another model with nearly identical internal knowledge. While both metalinguistic prompting and probability comparisons lead to high task accuracy, we do not find evidence that LLMs have privileged “self-access”. By using general tasks, controlling for model similarity, and evaluating a wide range of open-source models, we show that LLMs cannot introspect, and add new evidence to the argument that prompted responses should not be conflated with models’ linguistic generalizations.

Published: 2025-09-24 19:00 UTC


コメントする