大規模言語モデルにおける認知負荷限界:多段階推論のベンチマーク

大規模言語モデルにおける認知負荷限界:多段階推論のベンチマーク

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.19517v1 発表種別:新規

要約:大規模言語モデル(LLM)のスケーリングは、静的ベンチマークにおけるその性能と、動的で情報量の多い環境における脆弱性との間の重大なギャップを明らかにしました。モデルは孤立したタスクでは優れた性能を示しますが、認知負荷下での推論を支配する計算上の限界は、依然として十分に理解されていません。本研究では、計算認知負荷の正式な理論を導入し、無関係な情報(コンテキスト飽和)とタスク切り替えからの干渉(注意残渣)が性能を低下させる主要なメカニズムであると仮定します。我々は、これらの負荷要因を困難なマルチホップ推論タスクで体系的に操作するための、交絡因子を排除したベンチマークであるInterleaved Cognitive Evaluation (ICE) を設計しました。包括的な研究(200問の質問に対し、項目ごとに10回ずつ複製、N=10)により、5つの命令調整済みモデル間で有意な性能変動が明らかになりました。小規模なオープンソースアーキテクチャ(Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.2)は、本質的に負荷の高いこのタスクにおいて、クリーンなコントロール条件を含むすべての条件で0%の精度(SEM = 0.0)という基本的な脆弱性を示しました。対照的に、Gemini-2.0-Flash-001は部分的な回復力を見せ、コントロール条件下で85%の精度を達成し、コンテキスト飽和下では統計的に有意な性能低下を示しました($\beta = -0.003$ per % load, $p < 0.001$)。これらの知見は、認知負荷が推論の失敗の主要因であるという予備的な証拠を提供し、不確実性下での推測としての幻覚理論を支持しています。ICEベンチマークに示されるように、動的で認知を考慮したストレステストは、高度なAIシステムの真の回復力と安全性を評価するために不可欠であると結論付けます。

原文(英語)を表示

Title (EN): Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning

arXiv:2509.19517v1 Announce Type: new
Abstract: The scaling of Large Language Models (LLMs) has exposed a critical gap between their performance on static benchmarks and their fragility in dynamic, information-rich environments. While models excel at isolated tasks, the computational limits that govern their reasoning under cognitive load remain poorly understood. In this work, we introduce a formal theory of computational cognitive load, positing that extraneous, task-irrelevant information (Context Saturation) and interference from task-switching (Attentional Residue) are key mechanisms that degrade performance. We designed the Interleaved Cognitive Evaluation (ICE), a deconfounded benchmark to systematically manipulate these load factors on challenging multi-hop reasoning tasks. A comprehensive study (N = 10 replications per item across 200 questions) revealed significant performance variations across five instruction-tuned models. Smaller open-source architectures (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.2) exhibited baseline brittleness, achieving 0% accuracy (SEM = 0.0) across all conditions, including clean controls, on this high-intrinsic-load task. In contrast, Gemini-2.0-Flash-001 showed partial resilience, achieving 85% accuracy in control conditions, with a statistically significant degradation under context saturation ($\beta = -0.003$ per % load, $p < 0.001$). These findings provide preliminary evidence that cognitive load is a key contributor to reasoning failures, supporting theories of hallucination-as-guessing under uncertainty. We conclude that dynamic, cognitive-aware stress testing, as exemplified by the ICE benchmark, is essential for evaluating the true resilience and safety of advanced AI systems.

Published: 2025-09-24 19:00 UTC


コメントする