大規模言語モデルを用いた治験マッチングパイプラインの体系的レビュー

大規模言語モデルを用いた治験マッチングパイプラインの体系的レビュー

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19327v1発表種別:クロス

要約:臨床試験への患者のマッチングは、特に腫瘍学において新規治療法を特定するために重要です。しかし、手動によるマッチングは人手と時間を要し、エラーが発生しやすく、患者募集の遅延につながります。大規模言語モデル(LLM)を組み込んだパイプラインは、有望な解決策を提供します。3つの学術データベースと1つのプレプリントサーバーから2020年から2025年までに発表された研究について、系統的レビューを行い、臨床試験マッチングへのLLMベースのアプローチを特定しました。126の独自の論文のうち、31論文が包含基準を満たしました。レビューされた研究は、患者基準へのマッチングのみ(n=4)、患者試験へのマッチングのみ(n=10)、試験患者へのマッチングのみ(n=2)、二元適格性分類のみ(n=1)、または複合タスク(n=14)に焦点を当てていました。16件が合成データを使用し、14件が実際の患者データを使用し、1件が両方を使用していました。データセットと評価指標のばらつきにより、研究間の比較可能性が制限されました。直接比較を行った研究では、GPT-4モデルは、高度に微調整されたモデルでさえ、マッチングと適格性の抽出において一貫して他のモデルを上回りましたが、コストは高かったです。有望な戦略には、GPT-4oモデルのような独自のLLMを使用したゼロショットプロンプティング、高度な検索方法、大規模モデルを病院のインフラストラクチャに組み込むことが不可能な場合のデータプライバシーのための小型のオープンソースモデルの微調整が含まれていました。主な課題には、十分に大きな現実世界のデータセットへのアクセス、コスト削減、幻覚のリスク軽減、データ漏洩、バイアスの軽減などの展開に関連する課題が含まれます。本レビューは、LLMを臨床試験マッチングに適用することにおける進歩をまとめ、有望な方向性と主要な限界を強調しています。より幅広い展開には、標準化された指標、より現実的なテストセット、コスト効率と公平性への配慮が不可欠です。

原文(英語)を表示

Title (EN): A systematic review of trial-matching pipelines using large language models

arXiv:2509.19327v1 Announce Type: cross
Abstract: Matching patients to clinical trial options is critical for identifying novel treatments, especially in oncology. However, manual matching is labor-intensive and error-prone, leading to recruitment delays. Pipelines incorporating large language models (LLMs) offer a promising solution. We conducted a systematic review of studies published between 2020 and 2025 from three academic databases and one preprint server, identifying LLM-based approaches to clinical trial matching. Of 126 unique articles, 31 met inclusion criteria. Reviewed studies focused on matching patient-to-criterion only (n=4), patient-to-trial only (n=10), trial-to-patient only (n=2), binary eligibility classification only (n=1) or combined tasks (n=14). Sixteen used synthetic data; fourteen used real patient data; one used both. Variability in datasets and evaluation metrics limited cross-study comparability. In studies with direct comparisons, the GPT-4 model consistently outperformed other models, even finely-tuned ones, in matching and eligibility extraction, albeit at higher cost. Promising strategies included zero-shot prompting with proprietary LLMs like the GPT-4o model, advanced retrieval methods, and fine-tuning smaller, open-source models for data privacy when incorporation of large models into hospital infrastructure is infeasible. Key challenges include accessing sufficiently large real-world data sets, and deployment-associated challenges such as reducing cost, mitigating risk of hallucinations, data leakage, and bias. This review synthesizes progress in applying LLMs to clinical trial matching, highlighting promising directions and key limitations. Standardized metrics, more realistic test sets, and attention to cost-efficiency and fairness will be critical for broader deployment.

Published: 2025-09-24 19:00 UTC


コメントする