LLMにおける因果関係の理解:不確実性の役割
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20088v1発表タイプ:クロス
概要:最近の論文では、大規模言語モデル (LLM) が因果関係分類においてほぼランダムな精度しか達成していないことが示されており、そのような失敗が限定的な事前学習データによるものなのか、より深い表現力のギャップによるものなのかという疑問が生じている。本研究では、不確実性に基づく評価の下、事前学習における因果関係の例への露出が、7つのモデル(Pythia-1.4B/7B/12B、GPT-J-6B、Dolly-7B/12B、Qwen-7B)において、18,000文以上のPubMed sentences(The Pile corpus由来の文と2024年以降の文をそれぞれ半数ずつ)に対する因果的理解を向上させるかどうかを検証する。(i) モデルがテキスト中の因果関係を特定する因果関係分類、および(ii) モデルが以前見た因果関係に関する記述とその言い換え文のどちらを優先するのかを評価する逐語的記憶プローブを用いてモデルの挙動を分析する。モデルは4種類の分類(直接的/条件的/相関的/無関係)を行い、オリジナルと生成された言い換え文のどちらかを選択する。結果は、既知の文と未知の文に対する精度にほとんど差がない (p > 0.05)、記憶バイアスがない (オリジナル選択率24.8%)、そして可能な選択肢に対する出力分布がほぼフラットであり、エントロピー値が最大値 (1.35/1.39) に近いことを示し、ランダムな推測を裏付ける。指示調整済みモデルは深刻なミスケーリブレーションを示す(Qwen:信頼度 > 95%、精度 32.8%、ECE=0.49)。条件付き関係は、最も高いエントロピーを誘発する(直接的関係と比較して+11%)。これらの知見は、因果的理解における失敗は、事前学習における因果関係の例への露出不足ではなく、構造化された因果表現の欠如に起因することを示唆している。
原文(英語)を表示
Title (EN): Causal Understanding by LLMs: The Role of Uncertainty
arXiv:2509.20088v1 Announce Type: cross
Abstract: Recent papers show LLMs achieve near-random accuracy in causal relation classification, raising questions about whether such failures arise from limited pretraining exposure or deeper representational gaps. We investigate this under uncertainty-based evaluation, testing whether pretraining exposure to causal examples improves causal understanding >18K PubMed sentences — half from The Pile corpus, half post-2024 — across seven models (Pythia-1.4B/7B/12B, GPT-J-6B, Dolly-7B/12B, Qwen-7B). We analyze model behavior through: (i) causal classification, where the model identifies causal relationships in text, and (ii) verbatim memorization probing, where we assess whether the model prefers previously seen causal statements over their paraphrases. Models perform four-way classification (direct/conditional/correlational/no-relationship) and select between originals and their generated paraphrases. Results show almost identical accuracy on seen/unseen sentences (p > 0.05), no memorization bias (24.8% original selection), and output distribution over the possible options is almost flat, with entropic values near the maximum (1.35/1.39), confirming random guessing. Instruction-tuned models show severe miscalibration (Qwen: > 95% confidence, 32.8% accuracy, ECE=0.49). Conditional relations induce highest entropy (+11% vs. direct). These findings suggest that failures in causal understanding arise from the lack of structured causal representation, rather than insufficient exposure to causal examples during pretraining.
Published: 2025-09-24 19:00 UTC