BAP v2:Minecraftダイアログにおける指示遵守のための拡張タスクフレームワーク
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2501.10836v3発表タイプ:replace-cross
概要:言語を理解し、周囲を認識し、物理世界で行動できるインタラクティブなエージェントの開発は、AI研究の長年の目標である。Minecraft協調建築タスク(MCBT)(Narayan-Chen, Jayannavar, and Hockenmaier 2019)は、設計者(A)が構築者(B)にシミュレートされた3Dブロックの世界環境で目標構造物を構築するよう指示する二人用ゲームであり、この目標に向けた豊かなプラットフォームを提供する。本研究では、構築者行動予測(BAP)サブタスクに焦点を当てる。これは、マルチモーダルゲームコンテキスト(Jayannavar, Narayan-Chen, and Hockenmaier 2020)におけるBの行動を予測するものであり、限られた訓練データを持つ、根拠に基づいた指示に従うための挑戦的なテストベッドである。本研究では、このタスクを包括的に再検討し、評価、訓練データ、モデリングにおける主要な課題に対処するためにBAP v2を導入する。具体的には、よりクリーンなテストセットと、より公平で洞察力のある指標を備えた拡張された評価ベンチマークを定義し、空間推論が主要な性能ボトルネックであることを明らかにする。データ不足に対処し、モデルに基本的な空間スキルを教えるために、さまざまな種類の合成MCBTデータを生成する。人間のBAP対話データで訓練された現在のLLMベースの最先端モデルは、これらの単純な合成BAPデータでは失敗するが、この合成データでモデルを訓練することで、全体的な性能が向上することを示す。また、より豊富な入力表現を活用する新たな最先端モデル、Llama-CRAFTSを導入する。これはBAP v2タスクで53.0のF1スコアを達成し、合成データでも高い性能を示す。この結果は、以前の研究よりも6ポイントの顕著な改善を示しているが、タスクの残された困難さも強調しており、BAP v2を将来の研究のための肥沃な土壌として確立し、そのような具象化されたタスクにおける現在のテキストのみのLLMの空間能力の有用な尺度を提供する。
原文(英語)を表示
Title (EN): BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues
arXiv:2501.10836v3 Announce Type: replace-cross
Abstract: Developing interactive agents that can understand language, perceive their surroundings, and act within the physical world is a long-standing goal of AI research. The Minecraft Collaborative Building Task (MCBT) (Narayan-Chen, Jayannavar, and Hockenmaier 2019), a two-player game in which an Architect (A) instructs a Builder (B) to construct a target structure in a simulated 3D Blocks World environment, offers a rich platform to work towards this goal. In this work, we focus on the Builder Action Prediction (BAP) subtask: predicting B’s actions in a multimodal game context (Jayannavar, Narayan-Chen, and Hockenmaier 2020) – a challenging testbed for grounded instruction following, with limited training data. We holistically re-examine this task and introduce BAP v2 to address key challenges in evaluation, training data, and modeling. Specifically, we define an enhanced evaluation benchmark, featuring a cleaner test set and fairer, more insightful metrics that also reveal spatial reasoning as the primary performance bottleneck. To address data scarcity and to teach models basic spatial skills, we generate different types of synthetic MCBT data. We observe that current, LLM-based SOTA models trained on the human BAP dialogues fail on these simpler, synthetic BAP ones, but show that training models on this synthetic data improves their performance across the board. We also introduce a new SOTA model, Llama-CRAFTS, which leverages richer input representations, and achieves an F1 score of 53.0 on the BAP v2 task and strong performance on the synthetic data. While this result marks a notable 6 points improvement over previous work, it also underscores the task’s remaining difficulty, establishing BAP v2 as a fertile ground for future research, and providing a useful measure of the spatial capabilities of current text-only LLMs in such embodied tasks.
Published: 2025-09-24 19:00 UTC