MACD:大規模言語モデル向け自己学習知識を用いた多エージェント臨床診断
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20067v1発表、新発表。
概要:大規模言語モデル(LLM)は医療応用において顕著な可能性を示しているものの、従来のプロンプト法を用いた複雑な現実世界の臨床診断への対応には大きな課題が残されている。現在のプロンプトエンジニアリングとマルチエージェントアプローチは、通常、個々の推論を最適化することに重点を置き、再利用可能な臨床経験の蓄積を無視している。本研究では、この課題に対処するため、LLMがマルチエージェントパイプラインを通じて臨床知識を自己学習できる新規なマルチエージェント臨床診断(MACD)フレームワークを提案する。これは、医師が経験を通して専門性を高めていく過程を模倣し、主要な疾患特異的兆候に対するより的を絞った正確な診断を可能にする。さらに、これをMACD-ヒューマン協調ワークフローに拡張し、複数のLLMベースの診断エージェントが反復的なコンサルテーションを行い、合意に至らない場合は評価エージェントと人間の監督を受ける。7種類の疾患にわたる4,390件の現実世界の患者事例(様々なオープンソースLLM(Llama-3.1 8B/70B、DeepSeek-R1-Distill-Llama 70B)を用いて評価)において、MACDは一次診断精度を大幅に向上させ、既存の臨床ガイドラインを最大22.3%(MACD)上回る成果を達成した。データのサブセットにおいては、医師だけの診断と比較して同等以上の性能(最大16%の改善)を達成した。さらに、MACD-ヒューマンワークフローでは、医師だけの診断と比較して18.6%の改善を達成した。また、自己学習された知識は、モデル間での高い安定性、転移性、およびモデル固有のパーソナライゼーションを示し、システムは追跡可能な根拠を生成することで説明可能性を高める。本研究は、LLMの固有の知識と現実世界の臨床実践とのギャップを埋める、LLM支援診断のためのスケーラブルな自己学習パラダイムを示すものである。
原文(英語)を表示
Title (EN): MACD: Multi-Agent Clinical Diagnosis with Self-Learned Knowledge for LLM
arXiv:2509.20067v1 Announce Type: new
Abstract: Large language models (LLMs) have demonstrated notable potential in medical applications, yet they face substantial challenges in handling complex real-world clinical diagnoses using conventional prompting methods. Current prompt engineering and multi-agent approaches typically optimize isolated inferences, neglecting the accumulation of reusable clinical experience. To address this, this study proposes a novel Multi-Agent Clinical Diagnosis (MACD) framework, which allows LLMs to self-learn clinical knowledge via a multi-agent pipeline that summarizes, refines, and applies diagnostic insights. It mirrors how physicians develop expertise through experience, enabling more focused and accurate diagnosis on key disease-specific cues. We further extend it to a MACD-human collaborative workflow, where multiple LLM-based diagnostician agents engage in iterative consultations, supported by an evaluator agent and human oversight for cases where agreement is not reached. Evaluated on 4,390 real-world patient cases across seven diseases using diverse open-source LLMs (Llama-3.1 8B/70B, DeepSeek-R1-Distill-Llama 70B), MACD significantly improves primary diagnostic accuracy, outperforming established clinical guidelines with gains up to 22.3% (MACD). On the subset of the data, it achieves performance on par with or exceeding that of human physicians (up to 16% improvement over physicians-only diagnosis). Additionally, on the MACD-human workflow, it achieves an 18.6% improvement compared to physicians-only diagnosis. Moreover, self-learned knowledge exhibits strong cross-model stability, transferability, and model-specific personalization, while the system can generate traceable rationales, enhancing explainability. Consequently, this work presents a scalable self-learning paradigm for LLM-assisted diagnosis, bridging the gap between the intrinsic knowledge of LLMs and real-world clinical practice.
Published: 2025-09-24 19:00 UTC