フェロモンから政策へ:工学的に設計された生物群集のための強化学習

フェロモンから政策へ:工学的に設計された生物群集のための強化学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20095v1 発表種別:新規

要旨:群知能は単純なエージェント間の分散型相互作用から生じ、集団的な問題解決を可能にする。本研究は、線虫(*C. elegans*)におけるフェロモン媒介集合と強化学習(RL)の理論的等価性を確立し、スティグマジー信号が分散型報酬メカニズムとして機能する方法を示す。工学的に作製された線虫群による採餌タスクを実行するモデルを作成し、フェロモンダイナミクスが、基本的なRLアルゴリズムであるクロスラーニング更新と数学的に一致することを示す。既存文献のデータによる実験的検証により、本モデルが静的条件下での経験的な*C. elegans*の採餌パターンを正確に再現することを確認した。動的環境では、持続的なフェロモン痕跡は、群れを時代遅れの選択に固定することで適応を妨げる正のフィードバックループを生み出す。多腕バンディットシナリオにおける計算実験を通して、フェロモンに影響されない探索的エージェントの少数派を導入することで、集団的可塑性を回復し、迅速なタスク切り替えを可能にすることを明らかにした。この行動的多様性は探索と活用トレードオフのバランスを取り、群れレベルでの時代遅れの戦略の消滅を実現する。我々の結果は、スティグマジーシステムが本質的に分散型RLプロセスをエンコードしており、環境シグナルが集団的信用割り当てのための外部メモリとして機能することを示している。合成生物学と群ロボット工学を橋渡しすることで、本研究は、不安定な環境において回復力のある意思決定が可能な、プログラム可能な生きたシステムの進歩に貢献する。

原文(英語)を表示

Title (EN): From Pheromones to Policies: Reinforcement Learning for Engineered Biological Swarms

arXiv:2509.20095v1 Announce Type: new
Abstract: Swarm intelligence emerges from decentralised interactions among simple agents, enabling collective problem-solving. This study establishes a theoretical equivalence between pheromone-mediated aggregation in \celeg\ and reinforcement learning (RL), demonstrating how stigmergic signals function as distributed reward mechanisms. We model engineered nematode swarms performing foraging tasks, showing that pheromone dynamics mathematically mirror cross-learning updates, a fundamental RL algorithm. Experimental validation with data from literature confirms that our model accurately replicates empirical \celeg\ foraging patterns under static conditions. In dynamic environments, persistent pheromone trails create positive feedback loops that hinder adaptation by locking swarms into obsolete choices. Through computational experiments in multi-armed bandit scenarios, we reveal that introducing a minority of exploratory agents insensitive to pheromones restores collective plasticity, enabling rapid task switching. This behavioural heterogeneity balances exploration-exploitation trade-offs, implementing swarm-level extinction of outdated strategies. Our results demonstrate that stigmergic systems inherently encode distributed RL processes, where environmental signals act as external memory for collective credit assignment. By bridging synthetic biology with swarm robotics, this work advances programmable living systems capable of resilient decision-making in volatile environments.

Published: 2025-09-24 19:00 UTC


コメントする