AutoEval:モバイルエージェントの自律評価のための実際的なフレームワーク
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2503.02403v2 発表種別:差し替え
要旨: モバイルエージェントの包括的な評価は、その開発と現実世界での適用可能性を大幅に向上させる可能性を秘めています。しかし、既存のベンチマークは、タスク報酬シグナルの定義と評価コードの実装に多大な手作業が必要なため、実際性と拡張性に欠けています。本稿では、一切の手作業を必要としない評価フレームワークであるAutoEvalを提案します。本アプローチは、タスク報酬シグナルを自動生成するために使用できるUI状態変化表現を設計し、自律的な評価のためのJudge Systemを採用しています。評価の結果、AutoEvalは人間が注釈を付けたシグナルと高い相関性を持つ報酬シグナルを自動生成でき、人間による評価に匹敵する高い精度(最大94%)で自律的な評価を実現できることが示されました。最後に、提案するフレームワークを用いて最先端のモバイルエージェントを評価し、その性能と限界に関する知見を提供します。
原文(英語)を表示
Title (EN): AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents
arXiv:2503.02403v2 Announce Type: replace
Abstract: Comprehensive evaluation of mobile agents can significantly advance their development and real-world applicability. However, existing benchmarks lack practicality and scalability due to the extensive manual effort in defining task reward signals and implementing evaluation codes. We propose AutoEval, an evaluation framework which tests mobile agents without any manual effort. Our approach designs a UI state change representation which can be used to automatically generate task reward signals, and employs a Judge System for autonomous evaluation. Evaluation shows AutoEval can automatically generate reward signals with high correlation to human-annotated signals, and achieve high accuracy (up to 94%) in autonomous evaluation comparable to human evaluation. Finally, we evaluate state-of-the-art mobile agents using our framework, providing insights into their performance and limitations.
Published: 2025-09-24 19:00 UTC