Assay2Mol:バイオアッセイコンテキストを用いた大規模言語モデルベースの創薬設計

Assay2Mol:バイオアッセイコンテキストを用いた大規模言語モデルベースの創薬設計

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2507.12574v2 発表種別:差し替え
概要:科学データベースは、記述的なテキストと共に膨大な量の定量データを収集する。生化学において、分子スクリーニングアッセイは、候補分子の疾患標的に対する機能的応答を評価する。これらの標的が機能する生物学的メカニズム、実験的スクリーニングプロトコル、およびアッセイのその他の属性を記述する非構造化テキストは、創薬キャンペーンにとって豊富な情報を提供するが、その非構造化形式のために活用されてこなかった。本稿では、初期段階の創薬において、既存の広範な生化学スクリーニングアッセイを活用できる、大規模言語モデルベースのワークフローであるAssay2Molを紹介する。Assay2Molは、新しい標的と類似の標的を含む既存のアッセイ記録を検索し、取得したアッセイスクリーニングデータを用いたコンテキスト学習により候補分子を生成する。Assay2Molは、標的タンパク質構造に対する候補リガンド分子を生成する最近の機械学習アプローチを上回り、合成可能な分子の生成も促進する。

原文(英語)を表示

Title (EN): Assay2Mol: large language model-based drug design using BioAssay context

arXiv:2507.12574v2 Announce Type: replace-cross
Abstract: Scientific databases aggregate vast amounts of quantitative data alongside descriptive text. In biochemistry, molecule screening assays evaluate candidate molecules’ functional responses against disease targets. Unstructured text that describes the biological mechanisms through which these targets operate, experimental screening protocols, and other attributes of assays offer rich information for drug discovery campaigns but has been untapped because of that unstructured format. We present Assay2Mol, a large language model-based workflow that can capitalize on the vast existing biochemical screening assays for early-stage drug discovery. Assay2Mol retrieves existing assay records involving targets similar to the new target and generates candidate molecules using in-context learning with the retrieved assay screening data. Assay2Mol outperforms recent machine learning approaches that generate candidate ligand molecules for target protein structures, while also promoting more synthesizable molecule generation.

Published: 2025-09-24 19:00 UTC


コメントする