EDBench:大規模電子密度データによる分子モデリング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.09262v2 発表種別: replace-cross
要旨: 既存の分子機械学習力場 (MLFF) は一般的に原子、分子、および単純な量子化学的性質(エネルギーや力など)の学習に焦点を当てていますが、分子力場 (MFF) を正確に理解する上で電子密度 (ED) ρ(r) の重要性を無視しています。EDは原子や分子の周りの特定の位置に電子が存在する確率を表し、Hohenberg-Kohnの定理に従って、相互作用する多粒子系の全ての基底状態の性質(エネルギー、分子構造など)を一意的に決定します。しかし、EDの計算は時間のかかる第一原理密度汎関数理論 (DFT) に依存しており、大規模なEDデータの不足につながり、MLFFにおけるその応用を制限しています。本論文では、電子スケールでの学習に基づく研究を進めるために設計された、大規模で高品質なEDデータセットであるEDBenchを紹介します。PCQM4Mv2を基盤として構築されたEDBenchは、330万個の分子を網羅する正確なEDデータを提供します。電子情報に対する理解と活用能力を包括的に評価するために、予測、検索、生成にわたるED中心のベンチマークタスクのスイートを設計しました。いくつかの最先端の手法に対する評価により、EDBenchからの学習は実現可能であるだけでなく、高い精度も達成できることが示されました。さらに、学習に基づく手法は、従来のDFT計算に比べて計算コストを大幅に削減しながら、同等の精度でEDを効率的に計算できることを示します。EDBenchの全てのデータとベンチマークは無料で利用可能となり、ED駆動型の創薬と材料科学のための堅牢な基盤を築きます。
原文(英語)を表示
Title (EN): EDBench: Large-Scale Electron Density Data for Molecular Modeling
arXiv:2505.09262v2 Announce Type: replace-cross
Abstract: Existing molecular machine learning force fields (MLFFs) generally focus on the learning of atoms, molecules, and simple quantum chemical properties (such as energy and force), but ignore the importance of electron density (ED) $\rho(r)$ in accurately understanding molecular force fields (MFFs). ED describes the probability of finding electrons at specific locations around atoms or molecules, which uniquely determines all ground state properties (such as energy, molecular structure, etc.) of interactive multi-particle systems according to the Hohenberg-Kohn theorem. However, the calculation of ED relies on the time-consuming first-principles density functional theory (DFT) which leads to the lack of large-scale ED data and limits its application in MLFFs. In this paper, we introduce EDBench, a large-scale, high-quality dataset of ED designed to advance learning-based research at the electronic scale. Built upon the PCQM4Mv2, EDBench provides accurate ED data, covering 3.3 million molecules. To comprehensively evaluate the ability of models to understand and utilize electronic information, we design a suite of ED-centric benchmark tasks spanning prediction, retrieval, and generation. Our evaluation on several state-of-the-art methods demonstrates that learning from EDBench is not only feasible but also achieves high accuracy. Moreover, we show that learning-based method can efficiently calculate ED with comparable precision while significantly reducing the computational cost relative to traditional DFT calculations. All data and benchmarks from EDBench will be freely available, laying a robust foundation for ED-driven drug discovery and materials science.
Published: 2025-09-24 19:00 UTC