SAFE: 文レベル生成時帰属を用いたLLMシステムの改良
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.12621v2 発表種別:差し替え
要約: 大規模言語モデル(LLM)は様々な科学分野で利用が増えているものの、信頼できる検証可能な出力が不足しているという重要な課題により、その更なる普及は制約されている。現在のLLMは、信頼できる情報源の参照なしに、あるいはそれ以上に、誤った参照と共に回答を生成することが多く、トレーサビリティと説明責任が極めて重要な科学分野やハイステークスの状況における利用の障壁となっている。信頼性の高い属性付与システムには、取得したデータに対する短い長さの属性付与、つまり文書全体ではなく文書内の文への属性付与に対する高い精度が必要となる。本稿では、生成中に生成された文に属性を付与する、検索拡張生成(RAG)システムのための文レベル属性付与フレームワークSAFEを提案する。これにより、ユーザーは文を読みながら検証し、属性付与が生成されたテキストが文書に基づいていないことを示している場合にモデルを修正することができ、LLMシステムの安全性を向上させる。このフレームワークは、文に必要な参照数の予測と、文への属性付与の2つのステップからなる。我々のアプローチは、最初のステップで95%の精度を達成し、これはクリーンデータセットにおいて、全ての属性付与アルゴリズムの精度(最大可能な精度で正規化)をトップ1精度と比較して2.1~6.0%向上させた。また、数百から数千の文を含む文書を用いた現実世界のシナリオにもSAFEを適用した。これらの設定において、SAFEは文をそのソース文書に確実に属性付与し、この手法が制御されたベンチマークを超えて一般化することを示した。SAFEフレームワークとトレーニングデータセットはGitHubで公開されている。
原文(英語)を表示
Title (EN): SAFE: Improving LLM Systems using Sentence-Level In-generation Attribution
arXiv:2505.12621v2 Announce Type: replace
Abstract: Large Language Models (LLMs) are increasingly applied in various science domains, yet their broader adoption remains constrained by a critical challenge: the lack of trustworthy, verifiable outputs. Current LLMs often generate answers without reliable source attribution, or worse, with incorrect attributions, posing a barrier to their use in scientific and high-stakes settings, where traceability and accountability are paramount. To be reliable, attribution systems require high accuracy for short-length attribution on retrieved data, i.e., attribution to a sentence within a document rather than the entire document. We propose SAFE, a Sentence-level A ttribution FramEwork for Retrieve-Augmented Generation (RAG) systems that attributes generated sentences during generation. This allows users to verify sentences as they read them and correct the model when the attribution indicates the generated text is not grounded in the documents, increasing the safety of LLM systems. This framework consists of two steps: predicting the required number of references for a sentence, and attributing the sentence. Our approach achieved 95% accuracy in the first step, which translated to 2.1\~6.0% improvements in the accuracy (normalized for maximum possible accuracy) of all attribution algorithms in our clean dataset, when compared to their top-1 accuracy. We also applied SAFE in real-world scenarios with documents containing hundreds to thousands of sentences. In these settings, SAFE reliably attributed sentences to their source documents, demonstrating that the method generalizes beyond controlled benchmarks. The SAFE framework and the training dataset are publicly available on GitHub.
Published: 2025-09-24 19:00 UTC