複数綱引きゲーム上での分散学習:戦略的選択

複数綱引きゲーム上での分散学習:戦略的選択

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20147v1発表形式:クロス

概要:N人のプレイヤーと同時に開催されるK個のゲームを考える。各ゲームは、あるプレイヤーのアクション増加が他の全プレイヤーの報酬を減少させるTug-of-War (ToW)ゲームとしてモデル化される。各プレイヤーは、一度に一つのゲームのみに参加する。各タイムステップにおいて、プレイヤーは参加するゲームと、そのゲームにおけるアクションを決定する。プレイヤーの報酬はそのゲームに参加する全プレイヤーのアクションに依存する。このK個のゲームのシステムを「Meta Tug-of-War (Meta-ToW)」ゲームと呼ぶ。これらのゲームは、電力制御、分散タスク割り当て、センサネットワークにおける活性化などのシナリオをモデル化できる。我々は、アクション更新が単純な確率的近似アルゴリズムを用いて行われ、ゲームの切り替え決定がプレイヤー間の頻度の低い1ビット通信を用いて行われる分散アルゴリズムであるMeta Tug-of-Peaceアルゴリズムを提案する。Meta-ToWゲームにおいて、我々のアルゴリズムがプレイヤーの目標Quality of Service報酬ベクトルを満たす均衡に収束することを証明する。そして、上記シナリオのシミュレーションを通して、我々のアルゴリズムの有効性を示す。

原文(英語)を表示

Title (EN): Choose Your Battles: Distributed Learning Over Multiple Tug of War Games

arXiv:2509.20147v1 Announce Type: cross
Abstract: Consider N players and K games taking place simultaneously. Each of these games is modeled as a Tug-of-War (ToW) game where increasing the action of one player decreases the reward for all other players. Each player participates in only one game at any given time. At each time step, a player decides the game in which they wish to participate in and the action they take in that game. Their reward depends on the actions of all players that are in the same game. This system of K games is termed `Meta Tug-of-War’ (Meta-ToW) game. These games can model scenarios such as power control, distributed task allocation, and activation in sensor networks. We propose the Meta Tug-of-Peace algorithm, a distributed algorithm where the action updates are done using a simple stochastic approximation algorithm, and the decision to switch games is made using an infrequent 1-bit communication between the players. We prove that in Meta-ToW games, our algorithm converges to an equilibrium that satisfies a target Quality of Service reward vector for the players. We then demonstrate the efficacy of our algorithm through simulations for the scenarios mentioned above.

Published: 2025-09-24 19:00 UTC


コメントする