マルチモーダル参照視覚的グラウンディング
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2504.02876v2 発表種別: replace-cross
概要: 視覚的グラウンディングは、言語表現に基づいて画像から物体を検出することに焦点を当てています。最近の巨大視覚言語モデル(LVLMs)は、大規模データセットを用いた大規模モデルの学習により、視覚的グラウンディング性能を大幅に向上させてきました。しかし、特に類似した物体が入力画像に存在する場合、この問題は依然として困難です。例えば、LVLMは画像中のダイエットコーラと通常のコーラを区別できない可能性があります。この場合、ダイエットコーラと通常のコーラの追加の参照画像が利用可能であれば、類似した物体の視覚的グラウンディングに役立ちます。
本研究では、多様な参照視覚的グラウンディング(MRVG)という新しいタスクを提案します。このタスクでは、モデルはデータベース内の物体の参照画像セットにアクセスできます。これらの参照画像と言語表現に基づいて、モデルはクエリ画像からターゲットオブジェクトを検出する必要があります。まず、MRVG問題を研究するための新しいデータセットを提案します。次に、この視覚的グラウンディング問題を解決するための、MRVG-Netという新しい手法を提案します。少ショット物体検出による参照画像の効率的な利用と、物体照合のための巨大言語モデル(LLMs)の使用により、Qwen2.5-VL-72Bなどの最先端のLVLMsと比較して、優れた視覚的グラウンディング性能を達成することを示します。本アプローチは、少ショット検出と視覚的グラウンディングのギャップを埋めるものであり、ロボット工学など幅広い応用を持つ視覚理解のための新たな能力を開放します。プロジェクトページ(ビデオ、コード、データセット):https://irvlutd.github.io/MultiGrounding
原文(英語)を表示
Title (EN): Multimodal Reference Visual Grounding
arXiv:2504.02876v2 Announce Type: replace-cross
Abstract: Visual grounding focuses on detecting objects from images based on language expressions. Recent Large Vision-Language Models (LVLMs) have significantly advanced visual grounding performance by training large models with large-scale datasets. However, the problem remains challenging, especially when similar objects appear in the input image. For example, an LVLM may not be able to differentiate Diet Coke and regular Coke in an image. In this case, if additional reference images of Diet Coke and regular Coke are available, it can help the visual grounding of similar objects.
In this work, we introduce a new task named Multimodal Reference Visual Grounding (MRVG). In this task, a model has access to a set of reference images of objects in a database. Based on these reference images and a language expression, the model is required to detect a target object from a query image. We first introduce a new dataset to study the MRVG problem. Then we introduce a novel method, named MRVG-Net, to solve this visual grounding problem. We show that by efficiently using reference images with few-shot object detection and using Large Language Models (LLMs) for object matching, our method achieves superior visual grounding performance compared to the state-of-the-art LVLMs such as Qwen2.5-VL-72B. Our approach bridges the gap between few-shot detection and visual grounding, unlocking new capabilities for visual understanding, which has wide applications in robotics. Project page with our video, code, and dataset: https://irvlutd.github.io/MultiGrounding
Published: 2025-09-24 19:00 UTC