HawkBench:階層化された情報探索タスクにおけるRAG手法の堅牢性調査
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2502.13465v2、発表タイプ:replace-cross
要約:現実世界の情報検索シナリオにおいて、ユーザーは動的で多様なニーズを持つため、RAGシステムは適応可能な堅牢性を示す必要があります。現在のRAG手法の堅牢性を包括的に評価するために、我々はHawkBenchを導入します。HawkBenchは、人間がラベル付けした、多領域のベンチマークであり、分類されたタスクタイプ全体でRAGのパフォーマンスを厳密に評価するように設計されています。情報検索行動に基づいてタスクを階層化することにより、HawkBenchはRAGシステムが様々なユーザーニーズにどの程度適応できるかを体系的に評価します。
既存のベンチマークは、特定のタスクタイプ(主にファクトイドクエリ)に重点を置き、様々な知識ベースに依存しているのに対し、HawkBenchは、(1)ファクトイドクエリと根拠クエリを含む幅広いクエリタイプを網羅する体系的なタスク階層化、(2)全てのタスクタイプにわたる多領域コーパスの統合によるコーパスバイアスの軽減、(3)高品質な評価のための厳格なアノテーションを提供します。
HawkBenchには、ドメインとタスクタイプに均等に分散された1600個の高品質なテストサンプルが含まれています。このベンチマークを使用して、代表的なRAG手法を評価し、回答の質と応答遅延の観点からパフォーマンスを分析します。その結果、RAGの汎化性を向上させるには、意思決定、クエリ解釈、グローバルな知識理解を統合した動的なタスク戦略が必要であることが示唆されました。HawkBenchは、RAG手法の堅牢性と汎用的な情報検索能力の向上のための重要なベンチマークになると考えています。
原文(英語)を表示
Title (EN): HawkBench: Investigating Resilience of RAG Methods on Stratified Information-Seeking Tasks
arXiv:2502.13465v2 Announce Type: replace-cross
Abstract: In real-world information-seeking scenarios, users have dynamic and diverse needs, requiring RAG systems to demonstrate adaptable resilience. To comprehensively evaluate the resilience of current RAG methods, we introduce HawkBench, a human-labeled, multi-domain benchmark designed to rigorously assess RAG performance across categorized task types. By stratifying tasks based on information-seeking behaviors, HawkBench provides a systematic evaluation of how well RAG systems adapt to diverse user needs.
Unlike existing benchmarks, which focus primarily on specific task types (mostly factoid queries) and rely on varying knowledge bases, HawkBench offers: (1) systematic task stratification to cover a broad range of query types, including both factoid and rationale queries, (2) integration of multi-domain corpora across all task types to mitigate corpus bias, and (3) rigorous annotation for high-quality evaluation.
HawkBench includes 1,600 high-quality test samples, evenly distributed across domains and task types. Using this benchmark, we evaluate representative RAG methods, analyzing their performance in terms of answer quality and response latency. Our findings highlight the need for dynamic task strategies that integrate decision-making, query interpretation, and global knowledge understanding to improve RAG generalizability. We believe HawkBench serves as a pivotal benchmark for advancing the resilience of RAG methods and their ability to achieve general-purpose information seeking.
Published: 2025-09-24 19:00 UTC