マルチエージェント強化学習のための適応型イベントトリガー方策勾配法

マルチエージェント強化学習のための適応型イベントトリガー方策勾配法

なぜ重要か: 法規制・制度面での動きが企業のAI活用に直接影響する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20338v1発表形式:クロス

概要:従来のマルチエージェント強化学習(MARL)手法は、エージェントが一定間隔で行動をサンプリングおよび通信する時間トリガー実行に依存しています。このアプローチは、多くの場合、計算コストと通信負荷が高くなります。この課題に対処するため、エージェントの制御ポリシーとイベントトリガーポリシーを同時に学習するフレームワークであるET-MAPG(Event-Triggered Multi-Agent Policy Gradient reinforcement learning)を提案します。これらのメカニズムを分離する以前の研究とは異なり、ET-MAPGはそれらを統一的な学習プロセスに統合し、エージェントはどのような行動をとるかだけでなく、いつ実行するかについても学習することを可能にします。エージェント間の通信があるシナリオでは、選択的通信パターンを学習するためにセルフアテンションメカニズムを利用する、Attentionベースの変種であるAET-MAPGを導入します。AET-MAPGは、エージェントがいつ行動をトリガーするかだけでなく、誰と通信し、どのような情報を交換するかについても決定することを可能にし、調整を最適化します。どちらの手法も、任意のポリシー勾配MARLアルゴリズムと統合できます。様々なMARLベンチマークにおける広範な実験により、提案手法は、計算負荷と通信オーバーヘッドを大幅に削減しながら、最先端の時間トリガーベースラインと同等の性能を達成することを示しています。

原文(英語)を表示

Title (EN): Adaptive Event-Triggered Policy Gradient for Multi-Agent Reinforcement Learning

arXiv:2509.20338v1 Announce Type: cross
Abstract: Conventional multi-agent reinforcement learning (MARL) methods rely on time-triggered execution, where agents sample and communicate actions at fixed intervals. This approach is often computationally expensive and communication-intensive. To address this limitation, we propose ET-MAPG (Event-Triggered Multi-Agent Policy Gradient reinforcement learning), a framework that jointly learns an agent’s control policy and its event-triggering policy. Unlike prior work that decouples these mechanisms, ET-MAPG integrates them into a unified learning process, enabling agents to learn not only what action to take but also when to execute it. For scenarios with inter-agent communication, we introduce AET-MAPG, an attention-based variant that leverages a self-attention mechanism to learn selective communication patterns. AET-MAPG empowers agents to determine not only when to trigger an action but also with whom to communicate and what information to exchange, thereby optimizing coordination. Both methods can be integrated with any policy gradient MARL algorithm. Extensive experiments across diverse MARL benchmarks demonstrate that our approaches achieve performance comparable to state-of-the-art, time-triggered baselines while significantly reducing both computational load and communication overhead.

Published: 2025-09-24 19:00 UTC


コメントする