資源制約下における合理的行動主体における新たなリスク認識

資源制約下における合理的行動主体における新たなリスク認識

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.23436v4 発表種別:差し替え

要旨:人的能力を持つ高度な推論モデル(AIエージェント)は、人間と相互作用し、(近似的)効用関数と内部モデルの下で逐次意思決定問題を解決するために展開されています。資源または故障の制約があり、資源が枯渇すると行動シーケンスが強制的に終了する可能性がある場合、エージェントは暗黙のトレードオフに直面し、効用主導の(合理的)行動を再形成します。さらに、これらのエージェントは通常、人間の委託者によってその代理として行動するように委託されているため、制約へのエクスポージャーの非対称性により、人間の目的とエージェントのインセンティブ間の予期せぬ不一致が生じる可能性があります。本稿では、サバイバルバンディットフレームワークを通じてこの設定を定式化し、生存主導の選好シフトの影響を定量化する理論的および経験的結果を示し、不一致が生じる条件を特定し、リスク選好またはリスク回避行動の出現を軽減するためのメカニズムを提案します。その結果、本研究は、そのような生存圧力下で動作するAIエージェントの出現行動の理解と解釈性を高め、重要な資源制限環境におけるそのようなAIシステムの安全な展開のためのガイドラインを提供することを目的としています。

原文(英語)を表示

Title (EN): Emergent Risk Awareness in Rational Agents under Resource Constraints

arXiv:2505.23436v4 Announce Type: replace
Abstract: Advanced reasoning models with agentic capabilities (AI agents) are deployed to interact with humans and to solve sequential decision-making problems under (approximate) utility functions and internal models. When such problems have resource or failure constraints where action sequences may be forcibly terminated once resources are exhausted, agents face implicit trade-offs that reshape their utility-driven (rational) behaviour. Additionally, since these agents are typically commissioned by a human principal to act on their behalf, asymmetries in constraint exposure can give rise to previously unanticipated misalignment between human objectives and agent incentives. We formalise this setting through a survival bandit framework, provide theoretical and empirical results that quantify the impact of survival-driven preference shifts, identify conditions under which misalignment emerges and propose mechanisms to mitigate the emergence of risk-seeking or risk-averse behaviours. As a result, this work aims to increase understanding and interpretability of emergent behaviours of AI agents operating under such survival pressure, and offer guidelines for safely deploying such AI systems in critical resource-limited environments.

Published: 2025-09-24 19:00 UTC


コメントする