包括的なフラグメントベース創薬のための基礎化学言語モデル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19586v1発表タイプ:クロス
概要:本稿では、これまでにない規模のフラグメントデータセットを用いて訓練された、特化した基盤モデルであるFragAtlas-62Mを紹介する。6200万以上の分子を含む完全なZINC-22フラグメントサブセットに基づいて構築された本モデルは、前例のないフラグメント化学空間の網羅性を達成する。GPT-2ベースの我々のモデル(4270万パラメータ)は、99.90%の化学的に妥当なフラグメントを生成する。12個の記述子と3つのフィンガープリント法による検証では、生成されたフラグメントは訓練データ分布と密接に一致することが示された(全ての効果量<0.4)。本モデルは既知のZINCフラグメントの53.6%を保持しつつ、実用的な関連性を持つ22%の新規構造を生成する。普及促進のため、FragAtlas-62Mを訓練コード、前処理済データ、ドキュメント、およびモデルウェイトと共に公開する。
原文(英語)を表示
Title (EN): A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery
arXiv:2509.19586v1 Announce Type: cross
Abstract: We introduce FragAtlas-62M, a specialized foundation model trained on the largest fragment dataset to date. Built on the complete ZINC-22 fragment subset comprising over 62 million molecules, it achieves unprecedented coverage of fragment chemical space. Our GPT-2 based model (42.7M parameters) generates 99.90% chemically valid fragments. Validation across 12 descriptors and three fingerprint methods shows generated fragments closely match the training distribution (all effect sizes < 0.4). The model retains 53.6% of known ZINC fragments while producing 22% novel structures with practical relevance. We release FragAtlas-62M with training code, preprocessed data, documentation, and model weights to accelerate adoption.
Published: 2025-09-24 19:00 UTC