LLMベースの具象タスク完了エージェントの計画検証
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.02761v3発表タイプ:差し替え
要旨:具象AIのための、大規模言語モデル(LLM)に基づくタスク計画と対応する人間のデモンストレーションは、不要な行動、冗長なナビゲーション、論理的エラーが含まれるノイズが多く、ポリシーの質を低下させる可能性がある。本研究では、Judge LLMが行動シーケンスを批判し、Planner LLMが修正を適用することで、徐々にクリーンで空間的に一貫性のある軌跡を生み出す、反復的検証フレームワークを提案する。ルールベースのアプローチとは異なり、本手法は自然言語プロンプティングに依存しており、無関係な行動、矛盾、ステップの欠落など、様々なエラータイプにわたる広い汎化を可能にする。TEACh具象AIデータセットから手動でアノテーションされた行動の集合において、本フレームワークは、4つの最先端LLM(GPT-4-mini、DeepSeek-R1、Gemini 2.5、LLaMA 4 Scout)において、最大90%のリコールと100%の精度を達成する。改良ループは迅速に収束し、96.5%のシーケンスが最大3回の反復で済む一方、時間効率と空間的行動組織の両方を改善する。極めて重要なことに、本手法は人間のエラー回復パターンを維持し、それらを崩壊させることはなく、堅牢な修正行動に関する将来の研究を支える。空間計画と行動の改良のための信頼できるLLM能力としての計画検証を確立することで、具象AIにおける模倣学習のためのより高品質なトレーニングデータへのスケーラブルな道を提供する。
原文(英語)を表示
Title (EN): Plan Verification for LLM-Based Embodied Task Completion Agents
arXiv:2509.02761v3 Announce Type: replace
Abstract: Large language model (LLM) based task plans and corresponding human demonstrations for embodied AI may be noisy, with unnecessary actions, redundant navigation, and logical errors that reduce policy quality. We propose an iterative verification framework in which a Judge LLM critiques action sequences and a Planner LLM applies the revisions, yielding progressively cleaner and more spatially coherent trajectories. Unlike rule-based approaches, our method relies on natural language prompting, enabling broad generalization across error types including irrelevant actions, contradictions, and missing steps. On a set of manually annotated actions from the TEACh embodied AI dataset, our framework achieves up to 90% recall and 100% precision across four state-of-the-art LLMs (GPT o4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout). The refinement loop converges quickly, with 96.5% of sequences requiring at most three iterations, while improving both temporal efficiency and spatial action organization. Crucially, the method preserves human error-recovery patterns rather than collapsing them, supporting future work on robust corrective behavior. By establishing plan verification as a reliable LLM capability for spatial planning and action refinement, we provide a scalable path to higher-quality training data for imitation learning in embodied AI.
Published: 2025-09-24 19:00 UTC