多様な機械学習を用いた治療用抗体の改良

多様な機械学習を用いた治療用抗体の改良

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19604v1 発表種別: 新規

要旨: 近年の治療用抗体設計においては、それぞれ異なる起源を持つ、もしくは独立して設計された複数の機能ドメインを組み合わせた多成分集合体が用いられることがしばしばあります。これらの複雑なフォーマットは疾患への適用範囲を拡大し、安全性を向上させる可能性がありますが、大きな設計上の課題も提示します。個々のドメインの機能と安定性が新しいフォーマットにおいて保証されないこと、そして分子全体が合成できなくなる可能性があることです。これらの課題に対処するため、我々は機械学習フレームワークを開発し、「リフォーマット成功」すなわち抗体のフォーマット変換が成功するかどうかを予測します。本フレームワークは抗体配列と構造的コンテキストの両方を組み込み、現実的な展開シナリオを反映した評価プロトコルを採用しています。現実世界の抗体リフォーマットデータセットを用いた実験において、予期せぬ結果として、大規模な事前学習済みタンパク質言語モデル (PLM) は、シンプルでドメイン特化型のマルチモーダル表現を凌駕できないことがわかりました。これは、新しい出発抗体へのモデルの汎化性能を検証する最も困難な評価設定において特に顕著です。この困難な「新規抗体、データなし」シナリオにおいて、我々の最良のマルチモーダルモデルは高い予測精度を達成し、有望な候補の優先順位付けを可能にし、無駄な実験努力を削減します。

原文(英語)を表示

Title (EN): Improved Therapeutic Antibody Reformatting through Multimodal Machine Learning

arXiv:2509.19604v1 Announce Type: new
Abstract: Modern therapeutic antibody design often involves composing multi-part assemblages of individual functional domains, each of which may be derived from a different source or engineered independently. While these complex formats can expand disease applicability and improve safety, they present a significant engineering challenge: the function and stability of individual domains are not guaranteed in the novel format, and the entire molecule may no longer be synthesizable. To address these challenges, we develop a machine learning framework to predict “reformatting success” — whether converting an antibody from one format to another will succeed or not. Our framework incorporates both antibody sequence and structural context, incorporating an evaluation protocol that reflects realistic deployment scenarios. In experiments on a real-world antibody reformatting dataset, we find the surprising result that large pretrained protein language models (PLMs) fail to outperform simple, domain-tailored, multimodal representations. This is particularly evident in the most difficult evaluation setting, where we test model generalization to a new starting antibody. In this challenging “new antibody, no data” scenario, our best multimodal model achieves high predictive accuracy, enabling prioritization of promising candidates and reducing wasted experimental effort.

Published: 2025-09-24 19:00 UTC


コメントする