入力知覚から予測的洞察へ:エラー発生前にモデルの盲点をモデル化する

入力知覚から予測的洞察へ:エラー発生前にモデルの盲点をモデル化する

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20065v1 発表種別:新規

概要:言語モデルは、不備のある出力を生成するからではなく、そもそも入力の解釈を誤るため、しばしば慣用句、比喩、または文脈依存的な入力に苦労する。本稿では、サプライズと一様情報密度仮説に着想を得たトークンレベルの尤度特徴量を用いた、そのような失敗を予測するための入力のみを用いた手法を提案する。これらの特徴量は、入力理解における局所的な不確実性を捉え、5つの言語的に困難なデータセットにおいて標準的な基準を超える性能を示す。範囲を局所化した特徴量は、より大規模なモデルの誤り検出を向上させる一方、小規模なモデルはグローバルなパターンから恩恵を受けることを示す。本手法は、出力や隠れ活性化へのアクセスを必要とせず、軽量かつ汎化可能な生成前誤り予測アプローチを提供する。

原文(英語)を表示

Title (EN): From Input Perception to Predictive Insight: Modeling Model Blind Spots Before They Become Errors

arXiv:2509.20065v1 Announce Type: new
Abstract: Language models often struggle with idiomatic, figurative, or context-sensitive inputs, not because they produce flawed outputs, but because they misinterpret the input from the outset. We propose an input-only method for anticipating such failures using token-level likelihood features inspired by surprisal and the Uniform Information Density hypothesis. These features capture localized uncertainty in input comprehension and outperform standard baselines across five linguistically challenging datasets. We show that span-localized features improve error detection for larger models, while smaller models benefit from global patterns. Our method requires no access to outputs or hidden activations, offering a lightweight and generalizable approach to pre-generation error prediction.

Published: 2025-09-24 19:00 UTC


コメントする