RAD:信頼性の高い検索拡張型マルチモーダル臨床診断に向けて

RAD:信頼性の高い検索拡張型マルチモーダル臨床診断に向けて

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19980v1 発表種別:新規

要旨:臨床診断は、専門知識と厳格なガイドラインの遵守を必要とする高度に専門的な分野です。現在のAI駆動型医療研究は、主に医療知識を組み込むために知識グラフまたは自然言語事前学習パラダイムに焦点を当てていますが、これらのアプローチは主にモデルパラメータ内に暗黙的にエンコードされた知識に依存しており、多様な下流タスクに必要なタスク固有の知識を無視しています。この限界に対処するために、我々は、下流タスクで外部知識を多様なモデルに直接注入する新規フレームワークであるRetrieval-Augmented Diagnosis (RAD)を提案します。具体的には、RADは、複数の医療ソースからの疾患中心の知識の検索と洗練、多様な特徴とガイドライン知識間の潜在距離を制約するガイドライン強化型コントラスティブロス、ガイドラインをクエリとして用いてクロスモーダル融合を制御し、ガイドライン取得から特徴抽出、意思決定までの臨床診断ワークフローにモデルを合致させるデュアルトランスフォーマーデコーダという3つの主要なメカニズムを通じて動作します。さらに、多様な診断モデルの解釈可能性の定量的評価の不足を認識し、画像とテキストの両方の観点から解釈可能性を評価するための基準セットを導入します。異なる解剖学的部位を持つ4つのデータセット全体での広範な評価により、RADの汎化性能が実証され、最先端の性能を達成しました。さらに、RADはモデルが異常領域と重要な指標により正確に集中することを可能にし、エビデンスに基づいた信頼できる診断を保証します。コードはhttps://github.com/tdlhl/RADで公開しています。

原文(英語)を表示

Title (EN): RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis

arXiv:2509.19980v1 Announce Type: new
Abstract: Clinical diagnosis is a highly specialized discipline requiring both domain expertise and strict adherence to rigorous guidelines. While current AI-driven medical research predominantly focuses on knowledge graphs or natural text pretraining paradigms to incorporate medical knowledge, these approaches primarily rely on implicitly encoded knowledge within model parameters, neglecting task-specific knowledge required by diverse downstream tasks. To address this limitation, we propose Retrieval-Augmented Diagnosis (RAD), a novel framework that explicitly injects external knowledge into multimodal models directly on downstream tasks. Specifically, RAD operates through three key mechanisms: retrieval and refinement of disease-centered knowledge from multiple medical sources, a guideline-enhanced contrastive loss that constrains the latent distance between multi-modal features and guideline knowledge, and the dual transformer decoder that employs guidelines as queries to steer cross-modal fusion, aligning the models with clinical diagnostic workflows from guideline acquisition to feature extraction and decision-making. Moreover, recognizing the lack of quantitative evaluation of interpretability for multimodal diagnostic models, we introduce a set of criteria to assess the interpretability from both image and text perspectives. Extensive evaluations across four datasets with different anatomies demonstrate RAD’s generalizability, achieving state-of-the-art performance. Furthermore, RAD enables the model to concentrate more precisely on abnormal regions and critical indicators, ensuring evidence-based, trustworthy diagnosis. Our code is available at https://github.com/tdlhl/RAD.

Published: 2025-09-24 19:00 UTC


コメントする