臨床的文脈を用いた胸部X線モデルの性能評価に関する再検討

臨床的文脈を用いた胸部X線モデルの性能評価に関する再検討

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19671v1発表。種類:新規。

要約:胸部X線写真(CXR)の公開医療データセットは、医療におけるコンピュータビジョンモデル開発のための一般的なベンチマークとして長く利用されてきた。しかし、これらのデータセットにおける機械学習(ML)モデルの強い平均性能は、その臨床的有用性を保証するものではない。本論文では、過去の退院サマリーによって捉えられた臨床的コンテキストを用いて、CXR診断タスクにおける現在の「最先端」モデルのより包括的な評価を行う。各CXRの前に記録された退院サマリーを用いて、CXRラベルの「事前」確率または「検査前」確率を導出し、臨床医がCXRを解釈する際に利用できる既存のコンテキスト知識の代理とする。この尺度を用いて、2つの主要な知見を示す。第一に、いくつかの診断ラベルにおいて、CXRモデルは検査前確率が非常に低い症例で最も優れた性能を示し、検査前確率が高い症例では大幅に性能が低下する傾向がある。第二に、検査前確率を用いて、強い平均性能が真の診断シグナルを反映しているのか、それとも検査前確率を推論する能力をショートカットとして用いているのかを評価する。このショートカットが存在しないバランスの取れたテストセットでは、性能が急激に低下することを発見し、これは見かけ上の診断能力の大部分がこの臨床的コンテキストの推論に由来している可能性を示唆している。臨床記録から得られたコンテキストを用いたこの分析手法は、臨床ビジョンモデルのより厳格で詳細な評価のための有望な方向性であると主張する。

原文(英語)を表示

Title (EN): Revisiting Performance Claims for Chest X-Ray Models Using Clinical Context

arXiv:2509.19671v1 Announce Type: new
Abstract: Public healthcare datasets of Chest X-Rays (CXRs) have long been a popular benchmark for developing computer vision models in healthcare. However, strong average-case performance of machine learning (ML) models on these datasets is insufficient to certify their clinical utility. In this paper, we use clinical context, as captured by prior discharge summaries, to provide a more holistic evaluation of current “state-of-the-art” models for the task of CXR diagnosis. Using discharge summaries recorded prior to each CXR, we derive a “prior” or “pre-test” probability of each CXR label, as a proxy for existing contextual knowledge available to clinicians when interpreting CXRs. Using this measure, we demonstrate two key findings: First, for several diagnostic labels, CXR models tend to perform best on cases where the pre-test probability is very low, and substantially worse on cases where the pre-test probability is higher. Second, we use pre-test probability to assess whether strong average-case performance reflects true diagnostic signal, rather than an ability to infer the pre-test probability as a shortcut. We find that performance drops sharply on a balanced test set where this shortcut does not exist, which may indicate that much of the apparent diagnostic power derives from inferring this clinical context. We argue that this style of analysis, using context derived from clinical notes, is a promising direction for more rigorous and fine-grained evaluation of clinical vision models.

Published: 2025-09-24 19:00 UTC


コメントする