近似ベイズ計算を用いた大規模言語モデルの不確実性定量化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19375v1 発表種別:クロス
概要:大規模言語モデル(LLM)は広く応用されているにもかかわらず、不確実性を表現することに苦労することが多く、臨床診断のようなハイステークスかつ安全性が重要な分野における信頼できる展開にとって課題となっている。モデルのロジットや誘導確率などの既存の標準的なベースライン手法は、過信的で較正の悪い推定値を生み出す。本研究では、LLMを確率的シミュレータとして扱い、予測確率に関する事後分布を推論する、尤度フリーベイズ推論に基づく近似ベイズ計算(ABC)手法を提案する。提案手法を、合成口腔病変診断データセットと公開されているGretelAI症状から診断へのデータセットという2つの臨床的に関連性の高いベンチマークで評価した。標準的なベースラインと比較して、提案手法は精度を最大46.9%向上させ、Brierスコアを74.4%削減し、期待較正誤差(ECE)と予測エントロピーで測定される較正を向上させた。
原文(英語)を表示
Title (EN): Uncertainty Quantification of Large Language Models using Approximate Bayesian Computation
arXiv:2509.19375v1 Announce Type: cross
Abstract: Despite their widespread applications, Large Language Models (LLMs) often struggle to express uncertainty, posing a challenge for reliable deployment in high stakes and safety critical domains like clinical diagnostics. Existing standard baseline methods such as model logits and elicited probabilities produce overconfident and poorly calibrated estimates. In this work, we propose Approximate Bayesian Computation (ABC), a likelihood-free Bayesian inference, based approach that treats LLMs as a stochastic simulator to infer posterior distributions over predictive probabilities. We evaluate our ABC approach on two clinically relevant benchmarks: a synthetic oral lesion diagnosis dataset and the publicly available GretelAI symptom-to-diagnosis dataset. Compared to standard baselines, our approach improves accuracy by up to 46.9\%, reduces Brier scores by 74.4\%, and enhances calibration as measured by Expected Calibration Error (ECE) and predictive entropy.
Published: 2025-09-24 19:00 UTC