目標だけでなく段階を評価する:ロボット操作のためのVLMベースの部分目標評価
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19524v1 発表種別: 新規
概要: ロボット学習に関する論文は通常、単一の二値成功率(SR)を報告しており、複数ステップの操作タスクにおいてポリシーが成功または失敗する場所が不明瞭になります。本稿では、部分的な能力を可視化するために(例:把持対注ぐ)、各軌跡ごとに部分目標ごとのSRベクトルを生成する部分目標レベルの報告を標準化すべきだと主張します。我々は、ビジョン言語モデル(VLMs)を記録された画像またはビデオからの部分目標結果の自動判定者として利用する、コストを考慮したプラグイン評価フレームワークであるStepEvalの設計図を提案します。新しいベンチマークやAPIを提案するのではなく、本稿の貢献は、スケーラブルでコミュニティ主導のオープンソースプロジェクトのための設計原則を概説することです。StepEvalにおいて、ポリシー評価の主要な成果物は部分目標ごとのSRベクトルです。しかし、フレームワーク最適化診断のために、他の量(例:待ち時間やコスト推定)も考慮され、コミュニティが真値の部分目標成功ラベルが利用可能な場合の評価効率と精度を調整するのに役立ちます。このようなフレームワークがモデル非依存であり、単一または複数ビューの入力に対応し、ラボ間で採用できるほど軽量である方法について説明します。意図する貢献は、共有の方向性です。オープンソースへの貢献を促す、最小限で拡張可能なシードであり、最終目標だけでなくステップのスコアリングを標準的で再現可能な慣習にすることを目指します。
原文(英語)を表示
Title (EN): Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation
arXiv:2509.19524v1 Announce Type: new
Abstract: Robot learning papers typically report a single binary success rate (SR), which obscures where a policy succeeds or fails along a multi-step manipulation task. We argue that subgoal-level reporting should become routine: for each trajectory, a vector of per-subgoal SRs that makes partial competence visible (e.g., grasp vs. pour). We propose a blueprint for StepEval, a cost-aware plug-in evaluation framework that utilizes vision-language models (VLMs) as automated judges of subgoal outcomes from recorded images or videos. Rather than proposing new benchmarks or APIs, our contribution is to outline design principles for a scalable, community-driven open-source project. In StepEval, the primary artifact for policy evaluation is the per-subgoal SR vector; however, other quantities (e.g., latency or cost estimates) are also considered for framework-optimization diagnostics to help the community tune evaluation efficiency and accuracy when ground-truth subgoal success labels are available. We discuss how such a framework can remain model-agnostic, support single- or multi-view inputs, and be lightweight enough to adopt across labs. The intended contribution is a shared direction: a minimal, extensible seed that invites open-source contributions, so that scoring the steps, not just the final goal, becomes a standard and reproducible practice.
Published: 2025-09-24 19:00 UTC