UI-S1:準オンライン強化学習によるGUI自動化の進展

UI-S1:準オンライン強化学習によるGUI自動化の進展

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.11543v2 発表種別:replace-cross

概要:グラフィカルユーザーインターフェース(GUI)エージェントは、強化学習を通じて複雑なユーザーインターフェース相互作用の自動化において著しい進歩を見せています。しかし、現在のアプローチは根本的なジレンマに直面しています。オフライン強化学習は、事前に収集された軌跡を用いた安定した訓練を可能にする一方、軌跡レベルの報酬シグナルの欠如により、複数ステップのタスク実行に苦労します。オンライン強化学習は環境との相互作用を通じてこれらのシグナルを捉えますが、希薄な報酬と法外な展開コストに悩まされています。これに対処するため、本稿では、オフライン軌跡上でオンライン強化学習をシミュレートする新しいパラダイムであるSemi-online Reinforcement Learningを提案します。各ロールアウトプロセスにおいて、マルチターン対話内の元のモデル出力を保持し、Patch Moduleがロールアウトと専門家軌跡間のずれを適応的に回復します。長期的な訓練シグナルを捉えるため、Semi-online RLは報酬計算に割引未来収益を導入し、重み付けされたステップレベルとエピソードレベルのアドバンテージを用いてポリシーを最適化します。さらに、真のオンラインパフォーマンスとより整合性の高い指標であるSemi-Online Performance(SOP)を導入し、現実世界の評価のための実際的で効果的なプロキシとして機能させます。実験の結果、私たちのSemi-online RLは4つの動的なベンチマークにおいて7Bモデルの中で最先端のパフォーマンスを達成し、ベースモデルに対して大幅な向上を示しました(例:AndroidWorldで+12.0%、AITWで+23.8%)。これは、オフライン訓練効率とオンラインマルチターン推論のギャップを埋める上で大きな進歩を示しています。コードはhttps://github.com/X-PLUG/MobileAgent/tree/main/UI-S1で公開しています。

原文(英語)を表示

Title (EN): UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

arXiv:2509.11543v2 Announce Type: replace-cross
Abstract: Graphical User Interface (GUI) agents have demonstrated remarkable progress in automating complex user interface interactions through reinforcement learning. However, current approaches face a fundamental dilemma: offline RL enables stable training on pre-collected trajectories, but struggles with multi-step task execution for lack of trajectory-level reward signals; online RL captures these signals through environment interaction, but suffers from sparse rewards and prohibitive deployment costs. To address it, we present Semi-online Reinforcement Learning, a novel paradigm that simulates online RL on offline trajectories. During each rollout process, we preserve the original model output within the multi-turn dialogue, where a Patch Module adaptively recovers the divergence between rollout and expert trajectories. To capture long-term training signals, Semi-online RL introduces discounted future returns into the reward computation and optimizes the policy with weighted step-level and episode-level advantages. We further introduce Semi-Online Performance (SOP), a metric that aligns better with true online performance, serving as a practical and effective proxy for real-world evaluation. Experiments show that ours Semi-online RL achieves SOTA performance among 7B models across four dynamic benchmarks, with significant gains over the base model (e.g., +12.0% on AndroidWorld, +23.8% on AITW), demonstrating significant progress in bridging the gap between offline training efficiency and online multi-turn reasoning. The code is available at https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.

Published: 2025-09-24 19:00 UTC


コメントする