エンボディドAI:LLMからワールドモデルへ

エンボディドAI:LLMからワールドモデルへ

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20021v1発表。

要旨:具象人工知能(Embodied AI)は、人工汎用知能(AGI)達成のための知能システムパラダイムであり、様々な応用における礎石として、サイバー空間から物理システムへの進化を牽引している。大規模言語モデル(LLM)とワールドモデル(WM)における最近のブレークスルーは、具象AIにおいて大きな注目を集めている。一方、LLMは意味的推論とタスク分解を通じて具象AIを強化し、高レベルの自然言語指示と低レベルの自然言語行動を具象認知にもたらす。他方、WMは外部世界の内部表現と将来予測を構築することにより具象AIを強化し、物理法則に準拠した具象的相互作用を促進する。本論文は、LLM駆動型とWM駆動型の両方の研究を含め、基礎から最新の知見まで、具象AIに関する文献を包括的に探求する。特に、まず具象AIの歴史、主要技術、主要構成要素、ハードウェアシステムを示し、単一モーダルから多モーダルへの視点からその発展について論じる。次に、LLM/多モーダルLLM(MLLM)を用いた具象AIとWMを用いた具象AIという、具象AIの2つの急成長分野を精査し、エンドツーエンドの具象認知と物理法則駆動型の具象的相互作用における不可欠な役割を詳細に明らかにする。上記の進歩に基づき、MLLM-WM駆動型具象AIアーキテクチャの必要性に関する知見を共有し、物理世界における複雑なタスクを実現する上でその深い意義を明らかにする。さらに、具象AIの代表的な応用例を検証し、現実世界のシナリオにおける幅広い適用性を示す。最後に、更なる研究が必要な具象AIの将来の研究方向を指摘する。

原文(英語)を表示

Title (EN): Embodied AI: From LLMs to World Models

arXiv:2509.20021v1 Announce Type: new
Abstract: Embodied Artificial Intelligence (AI) is an intelligent system paradigm for achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications and driving the evolution from cyberspace to physical systems. Recent breakthroughs in Large Language Models (LLMs) and World Models (WMs) have drawn significant attention for embodied AI. On the one hand, LLMs empower embodied AI via semantic reasoning and task decomposition, bringing high-level natural language instructions and low-level natural language actions into embodied cognition. On the other hand, WMs empower embodied AI by building internal representations and future predictions of the external world, facilitating physical law-compliant embodied interactions. As such, this paper comprehensively explores the literature in embodied AI from basics to advances, covering both LLM driven and WM driven works. In particular, we first present the history, key technologies, key components, and hardware systems of embodied AI, as well as discuss its development via looking from unimodal to multimodal angle. We then scrutinize the two burgeoning fields of embodied AI, i.e., embodied AI with LLMs/multimodal LLMs (MLLMs) and embodied AI with WMs, meticulously delineating their indispensable roles in end-to-end embodied cognition and physical laws-driven embodied interactions. Building upon the above advances, we further share our insights on the necessity of the joint MLLM-WM driven embodied AI architecture, shedding light on its profound significance in enabling complex tasks within physical worlds. In addition, we examine representative applications of embodied AI, demonstrating its wide applicability in real-world scenarios. Last but not least, we point out future research directions of embodied AI that deserve further investigation.

Published: 2025-09-24 19:00 UTC


コメントする