MEBench:クロスドキュメントマルチエンティティ質問応答における大規模言語モデルのベンチマーク
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2502.18993v3 発表種別:差し替え
概要:多エンティティ質問応答(MEQA)は、大規模言語モデル(LLM)および検索拡張生成(RAG)システムにとって大きな課題を表しています。これらのシステムは、様々な文書に散在する情報を統合することに頻繁に苦労します。「様々な研究分野におけるACMフェローの分布は?」といったエンティティ密度の高い質問を解決するには、Wikipediaページなどの異種ソースからのエンティティ中心の知見を統合する必要があり、既存の手法は単一文書の理解には優れていますが、特にクロス文書の集約には苦労することが多いです。このギャップに対処するため、断片化された情報を検索、統合、推論するLLMの能力を体系的に評価することを目的とした、新規の多文書、多エンティティベンチマークであるMEBenchを紹介します。本ベンチマークは、4780個の質問で構成されており、3つの主要なカテゴリに体系的に分類され、さらに8つの異なるタイプに細分化されており、現実世界の多エンティティ推論シナリオを幅広く網羅しています。最先端のLLM(例:GPT-4、Llama-3)およびRAGパイプラインに関する実験では、重要な限界が明らかになりました。高度なモデルであっても、MEBenchではわずか59%の精度しか達成していません。本ベンチマークは、エンティティレベルの正確さと帰属の妥当性を詳細に評価するためのエンティティ属性付きF1(EA-F1)指標を使用して、MEQAタスクにおける情報の抽出の完全性と事実の正確性の重要性を強調しています。MEBenchは、現在のLLMフレームワークの体系的な弱点だけでなく、堅牢でエンティティ認識型のQAアーキテクチャを進歩させるための基礎も提供します。
原文(英語)を表示
Title (EN): MEBench: Benchmarking Large Language Models for Cross-Document Multi-Entity Question Answering
arXiv:2502.18993v3 Announce Type: replace
Abstract: Multi-entity question answering (MEQA) represents significant challenges for large language models (LLM) and retrieval-augmented generation (RAG) systems, which frequently struggle to consolidate scattered information across diverse documents. While existing methods excel at single-document comprehension, they often struggle with cross-document aggregation, particularly when resolving entity-dense questions like “What is the distribution of ACM Fellows among various fields of study?”, which require integrating entity-centric insights from heterogeneous sources (e.g., Wikipedia pages). To address this gap, we introduce MEBench, a novel multi-document, multi-entity benchmark designed to systematically evaluate LLMs’ capacity to retrieve, consolidate, and reason over fragmented information. Our benchmark comprises 4,780 questions which are systematically categorized into three primary categories, further divided into eight distinct types, ensuring broad coverage of real-world multi-entity reasoning scenarios. Our experiments on state-of-the-art LLMs (e.g., GPT-4, Llama-3) and RAG pipelines reveal critical limitations: even advanced models achieve only 59% accuracy on MEBench. Our benchmark emphasizes the importance of completeness and factual precision of information extraction in MEQA tasks, using Entity-Attributed F1 (EA-F1) metric for granular evaluation of entity-level correctness and attribution validity. MEBench not only highlights systemic weaknesses in current LLM frameworks but also provides a foundation for advancing robust, entity-aware QA architectures.
Published: 2025-09-24 19:00 UTC