大規模言語モデルベンチマークにおける知識グラフタスクの認知複雑性フレームワークを用いた特性評価

大規模言語モデルベンチマークにおける知識グラフタスクの認知複雑性フレームワークを用いた特性評価

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.19347v1 発表種別:新規

概要:大規模言語モデル(LLM)は知識グラフ(KG)を用いたタスクにますます利用されており、その評価は通常、精度と出力の正確性に焦点を当てている。本研究では、認知心理学の3つの複雑性フレームワークを用いた補足的なタスク特性化アプローチを提案する。これをLLM-KG-Benchフレームワークに適用することで、価値分布の強調、過小評価されている要求の特定、ベンチマーク評価タスクに対するより豊かな解釈と多様性の促進を行う。

原文(英語)を表示

Title (EN): Characterizing Knowledge Graph Tasks in LLM Benchmarks Using Cognitive Complexity Frameworks

arXiv:2509.19347v1 Announce Type: new
Abstract: Large Language Models (LLMs) are increasingly used for tasks involving Knowledge Graphs (KGs), whose evaluation typically focuses on accuracy and output correctness. We propose a complementary task characterization approach using three complexity frameworks from cognitive psychology. Applying this to the LLM-KG-Bench framework, we highlight value distributions, identify underrepresented demands and motivate richer interpretation and diversity for benchmark evaluation tasks.

Published: 2025-09-24 19:00 UTC


コメントする