データ拡張を用いた汎用SMARTSテンプレートからの化学製品予測のためのTransformerモデル
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2503.05810v3 発表タイプ:差し替え
概要:化学反応結果の正確な予測は、計算化学における大きな課題である。現在のモデルは、高度に特化した反応テンプレートまたはテンプレートフリーな手法のいずれかに大きく依存しており、両者とも限界がある。これらに対処するため、本研究では、部分構造と反応性を記述するために設計されたパターンベース表記であるSMARTSで記述された20個の汎用反応テンプレートを特徴とする広範な反応セット(BRS)を提案する。さらに、化学用に特化されたT5ベースのモデルであるProPreT5を導入する。これは、知る限りでは、SMARTS反応テンプレートを直接処理および適用できる最初の言語モデルである。一般化能力をさらに向上させるために、パターンレベルで構造的多様性を注入する、SMARTSのための最初の拡張戦略を提案する。拡張されたテンプレートで訓練されたProPreT5は、高い予測性能と未知の反応への一般化能力を示す。これらの貢献を総合的に見ると、現在の方法に対する新規かつ実用的な代替手段を提供し、テンプレートベースの反応予測の分野を前進させる。
原文(英語)を表示
Title (EN): A Transformer Model for Predicting Chemical Products from Generic SMARTS Templates with Data Augmentation
arXiv:2503.05810v3 Announce Type: replace-cross
Abstract: The accurate prediction of chemical reaction outcomes is a major challenge in computational chemistry. Current models rely heavily on either highly specific reaction templates or template-free methods, both of which present limitations. To address these, this work proposes the Broad Reaction Set (BRS), a set featuring 20 generic reaction templates written in SMARTS, a pattern-based notation designed to describe substructures and reactivity. Additionally, we introduce ProPreT5, a T5-based model specifically adapted for chemistry and, to the best of our knowledge, the first language model capable of directly handling and applying SMARTS reaction templates. To further improve generalization, we propose the first augmentation strategy for SMARTS, which injects structural diversity at the pattern level. Trained on augmented templates, ProPreT5 demonstrates strong predictive performance and generalization to unseen reactions. Together, these contributions provide a novel and practical alternative to current methods, advancing the field of template-based reaction prediction.
Published: 2025-09-24 19:00 UTC