COLT:継続的ツール使用によるビデオ大規模言語モデルの強化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.18754v2 発表種別: replace-cross
概要:大規模言語モデル(LLM)の成功により、動画理解の研究が大きく進展している。既に高度に訓練された専門モデル(すなわちツール)の利点を活用するため、動画LLMはツールの使用能力の探求を優先する。既存の手法は、クローズドソースのLLMにプロンプトを与えるか、ツール使用ファインチューニングに指示チューニングパラダイムを用いる。しかし、これらの手法は固定されたツールの既定のリポジトリを前提としており、ツールデータが絶えず進化し、ストリーミングされる現実世界の環境への一般化に苦労する。そこで、本研究では、オープンソースの動画LLMにCOntinuaL Tool usage(COLT)を導入することで、過去の学習済みツールの「壊滅的な忘却」に苦しむことなく、連続的なツールストリームにおいてツールの使用能力を自動的に獲得することを提案する。具体的には、COLTはツール固有のメモリシステムとして学習可能なツールコードブックを組み込んでいる。そして、ユーザー指示とコードブック内のツール特徴間の類似性に基づいて、関連するツールが動的に選択される。動画LLMのツール使用の可能性を解き放つために、我々は動画中心のツール使用指示チューニングデータセットVideoToolBenchを収集した。以前の動画LLMベンチマークとツール使用特化型VideoToolBenchデータセットの両方における広範な実験により、提案手法COLTが最先端の性能を示すことが実証された。
原文(英語)を表示
Title (EN): COLT: Enhancing Video Large Language Models with Continual Tool Usage
arXiv:2509.18754v2 Announce Type: replace-cross
Abstract: The success of Large Language Models (LLMs) has significantly propelled the research of video understanding. To harvest the benefits of well-trained expert models (i.e., tools), video LLMs prioritize the exploration of tool usage capabilities. Existing methods either prompt closed-source LLMs or employ the instruction tuning paradigm for tool-use fine-tuning. These methods, however, assume an established repository of fixed tools and struggle to generalize to real-world environments where tool data is perpetually evolving and streaming in. To this end, we propose to enhance open-source video LLMs with COntinuaL Tool usage (termed COLT), which automatically acquires tool-use ability in a successive tool stream without suffering ‘catastrophic forgetting’ of the past learned tools. Specifically, our COLT incorporates a learnable tool codebook as a tool-specific memory system. Then relevant tools are dynamically selected based on the similarity between user instruction and tool features within the codebook. To unleash the tool usage potential of video LLMs, we collect a video-centric tool-use instruction tuning dataset VideoToolBench. Extensive experiments on both previous video LLM benchmarks and the tool-use-specific VideoToolBench dataset demonstrate the state-of-the-art performance of our proposed COLT.
Published: 2025-09-24 19:00 UTC