CLIPは奥行きを理解できる

CLIPは奥行きを理解できる

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

本論文では、ウェブクローラデータによる事前学習において、視覚言語の整合性が最適に学習されていない下流タスクにおいても、CLIPを微調整なしに適用できることを示す。具体的には、単眼深度推定を対象とする。CLIPのContrastive Priorは、生成モデルやセマンティックセグメンテーションなどの分野での成功とは対照的に、このタスクにおいては一般化が困難である。CLIPは画像パッチと距離を記述する自然言語プロンプト間の類似性を一貫して捉えられないため、事前学習済みの自然言語トークン埋め込みを使用せず、凍結されたテキストエンコーダのセマンティック事前知識を「mirror」と呼ばれる単一の学習可能な埋め込み行列に蒸留する。mirrorの主な設計目標は、「この場所はカメラからどのくらい離れていますか?」という最適な自然言語プロンプトを近似する、非自然言語プロンプトを導出することである。このアプローチを用いて、凍結されたCLIP上に、軽量なmirrorとコンパクトなデコーダの2つのモジュールを共同で訓練し、高密度深度予測を行う。従来の深度モデルと比較して、本フレームワークはパラメータと計算の点で大幅に効率的である。得られたモデルは、NYU Depth v2とKITTIベンチマークデータセットにおいて、いくつかの最先端のビジョンモデルと同等の性能を示し、凍結されたCLIP事前知識に基づく全ての視覚言語深度モデルを凌駕する。実験により、空間的・時間的一貫性に関してCLIPの最適でない深度理解は、CLIPを微調整したり、mirrorを事前学習済みのサブワードトークン埋め込みと連結したりすることなく、大幅に修正できることが示された。さらに、mirrorの収束状況に関するアブレーションスタディにより、人間や窓などの物体において、セマンティックな手がかりが検出に重要な役割を果たす場合、mirrorは暗黙的にそれらを捉えるように学習されていることが示された。

原文(英語)を表示

Title (EN): CLIP Can Understand Depth

arXiv:2402.03251v2 Announce Type: replace-cross
Abstract: In this paper, we demonstrate that CLIP can also be adapted to downstream tasks where its vision-language alignment is suboptimally learned during pre-training on web-crawled data, all without requiring fine-tuning. We explore the case of monocular depth estimation, where CLIP’s contrastive prior struggles to generalize, compared to its success in domains such as generative modeling and semantic segmentation. Since CLIP fails to consistently capture similarities between image patches and natural language prompts describing distance, we eliminate the use of its pre-trained natural language token embeddings and distill the semantic prior of its frozen text encoder into a single learnable embedding matrix called “mirror”. The main design goal of mirror is to derive a non-human language prompt that approximates an optimal natural language prompt: “How far is this location from the camera?” Using this approach, we jointly train two lightweight modules, a mirror and a compact decoder, on top of a frozen CLIP for dense depth prediction. Compared to conventional depth models, our framework is significantly more efficient in terms of parameters and computation. The resulting model exhibits impressive performance, matching several state-of-the-art vision models on the NYU Depth v2 and KITTI benchmark datasets, while outperforming all vision-language depth models based on a frozen CLIP prior. Experiments demonstrate that the suboptimal depth understanding of CLIP in terms of spatial and temporal consistency can be significantly corrected without either fine-tuning it or concatenating mirror with its pre-trained subword token embeddings. Furthermore, an ablation study on the convergence status of mirror shows that it is implicitly trained to capture objects, such as humans and windows, where semantic cues play an important role in detection.

Published: 2025-09-24 19:00 UTC


コメントする