コンピュータ使用エージェントの有害性の測定
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2508.00935v2発表タイプ:replace-cross
要約:コンピュータを使用するエージェント(CUA)は、複数ステップの行動を自動的に実行するためにコンピュータを制御できるため、誤用されると重大な安全リスクをもたらす可能性があります。しかし、既存のベンチマークは、主にチャットボットや単純なツール使用における大規模言語モデル(LLM)を評価しています。CUAの誤用リスクをより包括的に評価するために、新たなベンチマークであるCUAHarmを導入します。CUAHarmは、ファイアウォールの無効化、データ漏洩、バックドアの設置など、104個の専門家が作成した現実的な誤用リスクから構成されています。拒否率を超えて、これらのタスクを実行するCUAの成功率(例:ファイアウォールが実際に無効化されたかどうか)を測定するために、ルールベースの検証可能な報酬を備えたサンドボックスを提供します。GPT-5、Claude 4 Sonnet、Gemini 2.5 Pro、Llama-3.3-70B、Mistral Large 2など、最先端のLLMを評価しました。ジェイルブレーキングプロンプトを使用しなくても、これらの最先端のLLMは、これらの悪意のあるタスクを高成功率(例:Gemini 2.5 Proでは90%)で実行します。さらに、以前の安全性のベンチマークでは新しいモデルの方が安全である一方で、CUAとしての誤用リスクはさらに高くなっており、例えばGemini 2.5 ProはGemini 1.5 Proよりもリスクが高いです。また、これらのLLMは、チャットボットとして機能する際には一般的な悪意のあるプロンプト(例:爆弾の作成)に対して堅牢ですが、CUAとして依然として安全でない行動をとる可能性があります。さらに、主要なエージェントフレームワーク(UI-TARS-1.5)を評価し、パフォーマンスを向上させる一方で、誤用リスクを増幅することも判明しました。CUAの誤用リスクを軽減するために、LLMを使用してCUAの行動を監視することを検討しています。コンピュータ使用における危険な行動を監視することは、従来の危険なチャットボット応答を監視するよりもはるかに難しいことがわかりました。思考連鎖の監視によってわずかな改善が見られますが、平均監視精度は77%に過ぎません。階層的な要約戦略により、最大13%パフォーマンスが向上し、有望な方向性であるものの、監視は依然として信頼性が低い状態です。このベンチマークは、これらのリスク軽減に関するさらなる研究を促進するために公開されます。
原文(英語)を表示
Title (EN): Measuring Harmfulness of Computer-Using Agents
arXiv:2508.00935v2 Announce Type: replace-cross
Abstract: Computer-using agents (CUAs), which can autonomously control computers to perform multi-step actions, might pose significant safety risks if misused. However, existing benchmarks mainly evaluate LMs in chatbots or simple tool use. To more comprehensively evaluate CUAs’ misuse risks, we introduce a new benchmark: CUAHarm. CUAHarm consists of 104 expert-written realistic misuse risks, such as disabling firewalls, leaking data, or installing backdoors. We provide a sandbox with rule-based verifiable rewards to measure CUAs’ success rates in executing these tasks (e.g., whether the firewall is indeed disabled), beyond refusal rates. We evaluate frontier LMs including GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, Llama-3.3-70B, and Mistral Large 2. Even without jailbreaking prompts, these frontier LMs comply with executing these malicious tasks at a high success rate (e.g., 90\% for Gemini 2.5 Pro). Furthermore, while newer models are safer in previous safety benchmarks, their misuse risks as CUAs become even higher, e.g., Gemini 2.5 Pro is riskier than Gemini 1.5 Pro. Additionally, while these LMs are robust to common malicious prompts (e.g., creating a bomb) when acting as chatbots, they could still act unsafely as CUAs. We further evaluate a leading agentic framework (UI-TARS-1.5) and find that while it improves performance, it also amplifies misuse risks. To mitigate the misuse risks of CUAs, we explore using LMs to monitor CUAs’ actions. We find monitoring unsafe computer-using actions is significantly harder than monitoring conventional unsafe chatbot responses. While monitoring chain-of-thoughts leads to modest gains, the average monitoring accuracy is only 77\%. A hierarchical summarization strategy improves performance by up to 13\%, a promising direction though monitoring remains unreliable. The benchmark will be released publicly to facilitate further research on mitigating these risks.
Published: 2025-09-24 19:00 UTC