天慧:多様な漢方医療シナリオに対応するドメイン特化型大規模言語モデル

天慧:多様な漢方医療シナリオに対応するドメイン特化型大規模言語モデル

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19834v1、発表種別:クロス

概要:伝統中医薬(TCM)特化型大規模言語モデル(LLM)は、適応性の制約、評価データセットの不足、計算資源の制限により、研究環境において限界に直面している。本研究は、文脈データ統合とドメイン知識融合によって構築されたTCM特化型LLM、「TianHui」を紹介する。0.97GBの教師なしデータと611,312組のQAペアからなる大規模なTCMコーパスを構築し、QLoRA、DeepSpeed Stage 2、Flash Attention 2を用いた二段階トレーニング戦略を採用した。12種類のベンチマークにおける評価の結果、TianHuiは6つのデータセット(APQ、TCMCD、HFR、HCCA、DHPE、TLAW)において全指標で上位3位以内に入り、他の6つのデータセット(TCMEE、APR、GCPMI、TCMKQA、TCMRC、ADTG)では最高成績を達成した。最適な設定は、LoRA rank=128、alpha=256、epoch=4、dropout=0.2、max length=2048と特定された。TianHuiは、TCM知識の体系的な保存とスケーラブルな応用を可能にする。全ての資源はオープンソース化されている。

原文(英語)を表示

Title (EN): TianHui: A Domain-Specific Large Language Model for Diverse Traditional Chinese Medicine Scenarios

arXiv:2509.19834v1 Announce Type: cross
Abstract: Domain-specific LLMs in TCM face limitations in research settings due to constrained adaptability, insufficient evaluation datasets, and limited computational resources. This study presents TianHui, a specialized TCM LLM built through contextual data integration and domain knowledge fusion. We constructed a large-scale TCM corpus (0.97GB unsupervised data + 611,312 QA pairs) and employed a two-stage training strategy with QLoRA, DeepSpeed Stage 2, and Flash Attention 2. Evaluation on 12 benchmarks showed TianHui ranked top-three in all metrics for six datasets (APQ, TCMCD, HFR, HCCA, DHPE, TLAW) and achieved top results in the other six (TCMEE, APR, GCPMI, TCMKQA, TCMRC, ADTG). Optimal configuration was identified as LoRA rank=128, alpha=256, epoch=4, dropout=0.2, max length=2048. TianHui enables systematic preservation and scalable application of TCM knowledge. All resources are open-sourced.

Published: 2025-09-24 19:00 UTC


コメントする