モジュール型機械学習とその遺伝子回路構成への応用
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19601v1 発表種別:新規
要旨:合成生物学を含む多くの応用において、多数のモジュールから構成されるシステムに関する入出力データがしばしば得られる。モジュールの入出力関数やシグナルは不明であっても、構成アーキテクチャに関する知識は、システムの入出力マッピングを学習するために必要なトレーニングデータ量を大幅に削減できる。また、異なる構成アーキテクチャから新しいシステムを設計するためには、モジュールの入出力関数の学習も必要となる。本研究では、システムの構成構造に関する事前知識を取り入れたモジュール学習フレームワークを提案する。(a) システムの入出力データから構成モジュールの入出力関数を識別し、(b) 構成構造の知識がない場合に比べて少ないデータ量でこれを達成する。この目的を達成するために、モジュールの識別可能性という概念を導入し、システムの入出力データのサブセットからモジュールの入出力関数を復元することを可能にし、遺伝子回路に動機付けられたシステムのクラスに関する理論的保証を提供する。計算機による研究でこの理論を実証し、構成構造を考慮したニューラルネットワーク(NNET)は、構成モジュールの入出力関数を学習し、トレーニングセット分布の外側の入力に対するシステムの出力を予測できることを示す。対照的に、構造を考慮しないニューラルネットワークは、トレーニングセット分布の外側の入力に対する予測ができない。実験データの必要性を軽減し、モジュール識別を可能にすることで、このフレームワークは合成生物学的回路やより一般的なマルチモジュールシステムの設計を容易にする可能性を提供する。
原文(英語)を表示
Title (EN): Modular Machine Learning with Applications to Genetic Circuit Composition
arXiv:2509.19601v1 Announce Type: new
Abstract: In several applications, including in synthetic biology, one often has input/output data on a system composed of many modules, and although the modules’ input/output functions and signals may be unknown, knowledge of the composition architecture can significantly reduce the amount of training data required to learn the system’s input/output mapping. Learning the modules’ input/output functions is also necessary for designing new systems from different composition architectures. Here, we propose a modular learning framework, which incorporates prior knowledge of the system’s compositional structure to (a) identify the composing modules’ input/output functions from the system’s input/output data and (b) achieve this by using a reduced amount of data compared to what would be required without knowledge of the compositional structure. To achieve this, we introduce the notion of modular identifiability, which allows recovery of modules’ input/output functions from a subset of the system’s input/output data, and provide theoretical guarantees on a class of systems motivated by genetic circuits. We demonstrate the theory on computational studies showing that a neural network (NNET) that accounts for the compositional structure can learn the composing modules’ input/output functions and predict the system’s output on inputs outside of the training set distribution. By contrast, a neural network that is agnostic of the structure is unable to predict on inputs that fall outside of the training set distribution. By reducing the need for experimental data and allowing module identification, this framework offers the potential to ease the design of synthetic biological circuits and of multi-module systems more generally.
Published: 2025-09-24 19:00 UTC