大規模言語モデルによる集中治療医学に関する質問への回答性能

大規模言語モデルによる集中治療医学に関する質問への回答性能

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19344v1(発表種別:新規)

概要:大規模言語モデルは医学部学生レベルの質問に対するテストが行われてきたが、集中治療医学(CCM)のような専門分野における性能はあまり研究されていない。本研究は、871件のCCMに関する質問を用いて、Meta-Llama 3.1モデル(パラメータ数80億および700億)を評価した。Llama3.1:700億パラメータモデルは、80億パラメータモデルを30%上回り、平均正解率は60%であった。性能は分野によって異なり、研究分野で最も高く(68.4%)、腎臓分野で最も低かった(47.9%)。これは、様々な専門分野におけるモデルの性能向上のための更なる研究が必要であることを示唆している。

原文(英語)を表示

Title (EN): Performance of Large Language Models in Answering Critical Care Medicine Questions

arXiv:2509.19344v1 Announce Type: new
Abstract: Large Language Models have been tested on medical student-level questions, but their performance in specialized fields like Critical Care Medicine (CCM) is less explored. This study evaluated Meta-Llama 3.1 models (8B and 70B parameters) on 871 CCM questions. Llama3.1:70B outperformed 8B by 30%, with 60% average accuracy. Performance varied across domains, highest in Research (68.4%) and lowest in Renal (47.9%), highlighting the need for broader future work to improve models across various subspecialty domains.

Published: 2025-09-24 19:00 UTC


コメントする