ビデオモデルは、ゼロショット学習と推論を行う。
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20328v1発表形式:クロス
概要:大規模言語モデル(LLM)の注目すべきゼロショット能力により、自然言語処理はタスク特化型モデルから統合的な汎用基盤モデルへと進化しました。この変革は、ウェブ規模のデータで訓練された大規模な生成モデルという単純なプリミティブから生じました。興味深いことに、同じプリミティブが今日の生成ビデオモデルにも当てはまります。ビデオモデルは、LLMが汎用的な言語理解を開発したように、汎用的なビジョン理解に向かう軌道に乗っているのでしょうか?本稿では、Veo 3が、オブジェクトのセグメンテーション、エッジ検出、画像編集、物理特性の理解、オブジェクトアフォーダンスの認識、ツールの使用シミュレーションなど、明示的に訓練されていない幅広いタスクを解決できることを示します。視覚世界を認識、モデル化、操作するこれらの能力は、迷路や対称性の解決などの初期段階の視覚推論を可能にします。Veoの出現的なゼロショット能力は、ビデオモデルが統合的な汎用ビジョン基盤モデルになる軌道に乗っていることを示唆しています。
原文(英語)を表示
Title (EN): Video models are zero-shot learners and reasoners
arXiv:2509.20328v1 Announce Type: cross
Abstract: The remarkable zero-shot capabilities of Large Language Models (LLMs) have propelled natural language processing from task-specific models to unified, generalist foundation models. This transformation emerged from simple primitives: large, generative models trained on web-scale data. Curiously, the same primitives apply to today’s generative video models. Could video models be on a trajectory towards general-purpose vision understanding, much like LLMs developed general-purpose language understanding? We demonstrate that Veo 3 can solve a broad variety of tasks it wasn’t explicitly trained for: segmenting objects, detecting edges, editing images, understanding physical properties, recognizing object affordances, simulating tool use, and more. These abilities to perceive, model, and manipulate the visual world enable early forms of visual reasoning like maze and symmetry solving. Veo’s emergent zero-shot capabilities indicate that video models are on a path to becoming unified, generalist vision foundation models.
Published: 2025-09-24 19:00 UTC