分散信号を用いたトークンレベルの幻覚検出:参照フリーアプローチ
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2507.04137v2 発表タイプ: 置換
要旨: 大規模言語モデル(LLM)は様々なタスクにおいて впечатляющие 生成能力を示しているものの、幻覚、すなわち事実と異なる出力を自信満々に生成することに依然として脆弱である。本稿では、複数の確率的生成におけるトークン対数確率の分散を利用した、参照不要のトークンレベル幻覚検出フレームワークを紹介する。正解データを参照したり、文レベルの検証を必要とする従来の方法とは異なり、本アプローチはモデル非依存で、解釈可能であり、リアルタイムまたは事後分析に適している。SQuAD v2データセットの回答不能な質問プロンプトを用いて、GPT-Neo 125M、Falcon 1B、Mistral 7Bという3つの異なる規模の自己回帰モデルにおいて本手法を評価する。定量的指標と視覚的診断の両方を通じて、トークンレベルの分散がモデル出力の不安定性を確実に強調し、幻覚パターンと相関することを示す。本フレームワークは軽量で再現性が高く、複数のドメインに適用可能であり、LLMにおける生成信頼性の分析に役立つ診断ツールを提供する。
原文(英語)を表示
Title (EN): Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach
arXiv:2507.04137v2 Announce Type: replace
Abstract: Large Language Models (LLMs) have demonstrated impressive generative capabilities across diverse tasks but remain susceptible to hallucinations, confidently generated yet factually incorrect outputs. We introduce a reference-free, token-level hallucination detection framework that leverages the variance in token log-probabilities across multiple stochastic generations. Unlike prior methods that require ground-truth references or sentence-level verification, our approach is model-agnostic, interpretable, and suited for real-time or post-hoc analysis. We evaluate our method on unanswerable question prompts from the SQuAD v2 dataset and benchmark across three autoregressive models of varying scales: GPT-Neo 125M, Falcon 1B, and Mistral 7B. Through both quantitative metrics and visual diagnostics, we show that token-level variance reliably highlights instability in model outputs and correlates with hallucination patterns. Our framework is lightweight, reproducible, and adaptable to multiple domains, offering a valuable diagnostic tool for analyzing generative reliability in LLMs.
Published: 2025-09-24 19:00 UTC