基盤モデルを用いた探求:能力、限界、およびハイブリッドアプローチ

基盤モデルを用いた探求:能力、限界、およびハイブリッドアプローチ

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19924v1発表形式:クロス

要旨:強化学習(RL)における探索は、特に報酬が希薄な状況下では依然として困難な課題である。基盤モデルは強力な意味的事前知識を有するが、古典的なRLベンチマークにおけるゼロショット探索エージェントとしての能力は十分に解明されていない。本研究では、ゼロショット探索を検証するため、多腕バンディット、Gridworlds、報酬が希薄なAtariにおいて、LLMとVLMをベンチマークした。その結果、VLMは視覚入力から高レベルの目的を推論できる一方で、常に精密な低レベル制御に失敗するという重要な限界、「知る―行うギャップ」が明らかになった。このギャップを埋める可能性のある手法を分析するため、制御された最適条件下において、単純なオンポリシーハイブリッドフレームワークを調査した。この理想的な設定における結果から、VLMによるガイダンスは初期段階のサンプル効率を大幅に向上させる可能性があり、探索をガイドするための基盤モデルの使用に関する可能性と制約を明確に分析できることが示された。

原文(英語)を表示

Title (EN): Exploration with Foundation Models: Capabilities, Limitations, and Hybrid Approaches

arXiv:2509.19924v1 Announce Type: cross
Abstract: Exploration in reinforcement learning (RL) remains challenging, particularly in sparse-reward settings. While foundation models possess strong semantic priors, their capabilities as zero-shot exploration agents in classic RL benchmarks are not well understood. We benchmark LLMs and VLMs on multi-armed bandits, Gridworlds, and sparse-reward Atari to test zero-shot exploration. Our investigation reveals a key limitation: while VLMs can infer high-level objectives from visual input, they consistently fail at precise low-level control: the “knowing-doing gap”. To analyze a potential bridge for this gap, we investigate a simple on-policy hybrid framework in a controlled, best-case scenario. Our results in this idealized setting show that VLM guidance can significantly improve early-stage sample efficiency, providing a clear analysis of the potential and constraints of using foundation models to guide exploration rather than for end-to-end control.

Published: 2025-09-24 19:00 UTC


コメントする