観察による学習:最近の進歩に関する調査

観察による学習:最近の進歩に関する調査

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19379v1発表タイプ:クロス

概要:模倣学習(IL)アルゴリズムは、報酬関数を必要とせずに専門家の行動を模倣することでエージェントを効率的に訓練する手法を提供する。ILアルゴリズムは、しばしば専門家のデモからの状態と行動の情報へのアクセスを必要とする。専門家の行動は詳細なガイダンスを提供するものの、そのような行動情報が必要となることは、専門家の行動を入手することが困難な現実世界のアプリケーションにおいては非現実的となる可能性がある。この制限に対処するため、観測からの学習(LfO)または状態のみの模倣学習(SOIL)の概念が近年注目を集めており、模倣学習者は専門家の状態訪問情報にのみアクセスできる。本論文では、LfOのための枠組みを提示し、それを用いて既存のLfO手法を、それらの軌道構築、仮定、およびアルゴリズムの設計上の選択という観点から調査・分類する。本調査は、オフライン強化学習、モデルベース強化学習、階層型強化学習などの関連分野との関連性についても明らかにする。最後に、この枠組みを用いて未解決の問題点を特定し、今後の研究方向を提案する。

原文(英語)を表示

Title (EN): Learning from Observation: A Survey of Recent Advances

arXiv:2509.19379v1 Announce Type: cross
Abstract: Imitation Learning (IL) algorithms offer an efficient way to train an agent by mimicking an expert’s behavior without requiring a reward function. IL algorithms often necessitate access to state and action information from expert demonstrations. Although expert actions can provide detailed guidance, requiring such action information may prove impractical for real-world applications where expert actions are difficult to obtain. To address this limitation, the concept of learning from observation (LfO) or state-only imitation learning (SOIL) has recently gained attention, wherein the imitator only has access to expert state visitation information. In this paper, we present a framework for LfO and use it to survey and classify existing LfO methods in terms of their trajectory construction, assumptions and algorithm’s design choices. This survey also draws connections between several related fields like offline RL, model-based RL and hierarchical RL. Finally, we use our framework to identify open problems and suggest future research directions.

Published: 2025-09-24 19:00 UTC


コメントする