CNS-Obsidian:科学論文から構築された神経外科用視覚言語モデル

CNS-Obsidian:科学論文から構築された神経外科用視覚言語モデル

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2502.19546v4 発表タイプ: 置換

概要:汎用ビジョン言語モデル(VLM)は優れた能力を示す一方で、キュレーションされていないインターネットデータによる不透明なトレーニングが、神経外科手術など、高リスク意思決定において重大な限界を有する。本研究では、査読済みの神経外科文献に基づいてトレーニングされた神経外科VLM、CNS-Obsidian を提示し、実世界設定においてGPT-4oと比較した臨床的有用性を示す。Neurosurgery Publications誌から23,984報の論文を収集し、78,853枚の図表とキャプションを得た。GPT-4oとClaude Sonnet-3.5を用いて、これらの画像テキストペアを、指示微調整、多肢選択問題、鑑別診断の3つの形式で263,064個のトレーニングサンプルに変換した。340億パラメータのLLaVA-NextモデルをファインチューニングしたCNS-Obsidianをトレーニングした。NYU Langone Healthにおける盲検ランダム化導入試験(2024年8月30日~11月30日)において、神経外科医は患者診察後に診断コパイロットとしてCNS-ObsidianまたはGPT-4oのいずれかを使用するように割り当てられた。主要アウトカムは診断の有用性と正確性であった。CNS-Obsidianは合成質問においてGPT-4oと同等の結果を示した(76.13%対77.54%、p=0.235)。しかし、人間が作成した質問に対する正解率は、GPT-4oの65.70%に対し46.81%であった(p<10⁻¹⁵)。ランダム化試験では、合計959件の診察のうち70件(CNS-Obsidian 32件、GPT-4o 38件)を評価した。CNS-Obsidianは40.62%の症例で肯定的な評価を受けたのに対し、GPT-4oは57.89%であった(p=0.230)。両モデルとも約60%の症例で正しい診断が含まれていた(59.38%対65.79%、p=0.626)。キュレーションされた科学文献に基づいてトレーニングされたドメイン固有のVLMは、トレーニング費用と規模が桁違いに小さくても、専門的な医療分野において最先端モデルの性能に近づくことができる。しかし、臨床利用率の低さは、チャットボットインターフェースが専門家のワークフローと一致しない可能性を示唆しており、代替的なAI統合戦略の必要性を示している。

原文(英語)を表示

Title (EN): CNS-Obsidian: A Neurosurgical Vision-Language Model Built From Scientific Publications

arXiv:2502.19546v4 Announce Type: replace
Abstract: General-purpose vision-language models (VLMs) demonstrate impressive capabilities, but their opaque training on uncurated internet data posse critical limitations for high-stakes decision-making, such as in neurosurgery. We present CNS-Obsidian, a neurosurgical VLM trained on peer-reviewed neurosurgical literature, and demonstrate its clinical utility compared with GPT-4o in a real-world setting. We compiled 23,984 articles from Neurosurgery Publications journals, yielding 78,853 figures and captions. Using GPT-4o and Claude Sonnet-3.5, we converted these image-text pairs into 263,064 training samples across three formats: instruction fine-tuning, multiple-choice questions, and differential diagnosis. We trained CNS-Obsidian, a fine-tune of the 34-billion parameter LLaVA-Next model. In a blinded, randomized deployment trial at NYU Langone Health (Aug 30-Nov 30, 2024), neurosurgeons were assigned to use either CNS-Obsidian or GPT-4o as a diagnostic co-pilot after patient consultations. Primary outcomes were diagnostic helpfulness and accuracy. CNS-Obsidian matched GPT-4o on synthetic questions (76.13% vs 77.54%, p=0.235), but only achieved 46.81% accuracy on human-generated questions versus GPT-4o’s 65.70% (p<10-15). In the randomized trial, 70 consultations were evaluated (32 CNS-Obsidian, 38 GPT-4o) from 959 total consults. CNS-Obsidian received positive ratings in 40.62% of cases versus 57.89% for GPT-4o (p=0.230). Both models included correct diagnosis in approximately 60% of cases (59.38% vs 65.79%, p=0.626). Domain-specific VLMs trained on curated scientific literature can approach frontier model performance in specialized medical domains despite being orders of magnitude smaller and less expensive to train. However, low clinical utilization suggests chatbot interfaces may not align with specialist workflows, indicating need for alternative AI integration strategies.

Published: 2025-09-24 19:00 UTC


コメントする