SciRerankBench:科学的検索拡張生成LLMに向けたリランカーのベンチマーク
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2508.08742v2発表タイプ: replace-cross
要約: 科学文献質問応答は、新たな科学的発見に向けた重要なステップです。近年、二段階の検索拡張型大規模言語モデル(RAG-LLM)がこの分野で目覚ましい進歩を見せています。このような二段階のフレームワーク、特に第二段階(再ランク付け器)は、用語の微妙な違いが最終的な事実指向型または知識集約型の回答に大きな悪影響を与える可能性のある科学分野において特に重要です。この著しい進歩にもかかわらず、これらの研究の可能性と限界は未解明のままです。本研究では、5つの科学分野にわたるRAG-LLMシステム内の再ランク付け器を評価するための、科学的再ランク付け指向ベンチマーク(SciRerankBench)を紹介します。ノイズ耐性、関連性の曖昧さの解消、事実の一貫性の点で再ランク付け器のパフォーマンスを厳格に評価するために、ノイズを含むコンテキスト(NC)、意味的に類似しているが論理的に無関係なコンテキスト(SSLI)、反事実的コンテキスト(CC)の3種類の質問-コンテキスト-回答(Q-C-A)ペアを開発しました。13種類の広く使用されている再ランク付け器を5つのLLMファミリーで体系的に評価することにより、それらの相対的な強みと限界に関する詳細な知見を示します。SciRerankBenchは、RAG-LLM内の再ランク付け器を評価するために開発された最初のベンチマークであり、その将来の発展のための貴重な知見と指針を提供します。
原文(英語)を表示
Title (EN): SciRerankBench: Benchmarking Rerankers Towards Scientific Retrieval-Augmented Generated LLMs
arXiv:2508.08742v2 Announce Type: replace-cross
Abstract: Scientific literature question answering is a pivotal step towards new scientific discoveries. Recently, \textit{two-stage} retrieval-augmented generated large language models (RAG-LLMs) have shown impressive advancements in this domain. Such a two-stage framework, especially the second stage (reranker), is particularly essential in the scientific domain, where subtle differences in terminology may have a greatly negative impact on the final factual-oriented or knowledge-intensive answers. Despite this significant progress, the potential and limitations of these works remain unexplored. In this work, we present a Scientific Rerank-oriented RAG Benchmark (SciRerankBench), for evaluating rerankers within RAG-LLMs systems, spanning five scientific subjects. To rigorously assess the reranker performance in terms of noise resilience, relevance disambiguation, and factual consistency, we develop three types of question-context-answer (Q-C-A) pairs, i.e., Noisy Contexts (NC), Semantically Similar but Logically Irrelevant Contexts (SSLI), and Counterfactual Contexts (CC). Through systematic evaluation of 13 widely used rerankers on five families of LLMs, we provide detailed insights into their relative strengths and limitations. To the best of our knowledge, SciRerankBench is the first benchmark specifically developed to evaluate rerankers within RAG-LLMs, which provides valuable observations and guidance for their future development.
Published: 2025-09-24 19:00 UTC