オンライン言語の拡散

オンライン言語の拡散

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2503.09447v2 発表種別:差し替え

要約:AIエージェントが人間と3D環境の両方とシームレスにインタラクトするためには、3D世界を正確に認識するだけでなく、人間の言語と3D空間表現を整合させる必要があります。先行研究では、3D Gaussian Splatting (GS)を用いて言語特徴量を幾何学的に詳細な3Dシーン表現に統合することで大きな進歩を遂げていますが、これらの手法は各入力画像に対して計算集約的なオフライン前処理を言語特徴量に依存しており、新しい環境への適応性が制限されています。本研究では、事前生成された言語特徴量を必要とせずに、3DGS-SLAMシステム内でオンライン、ほぼリアルタイム、オープンボキャブラリーの言語マッピングを実現する最初のフレームワークであるOnline Language Splattingを紹介します。主な課題は、計算速度、メモリ使用量、レンダリング品質、オープンボキャブラリー能力のバランスを取りながら、高次元言語特徴量を3D表現に効率的に融合することです。この目的のために、私たちは革新的に以下のものを設計しました。(1) フレームあたり18msで詳細な言語特徴量マップを生成できる高解像度CLIP埋め込みモジュール、(2) 768次元のCLIP特徴量を15次元へと圧縮しながらオープンボキャブラリー能力を維持する二段階オンラインオートエンコーダー、(3) レンダリング品質を向上させる色と言語の分離最適化アプローチ。実験結果は、私たちのオンライン手法が精度において最先端のオフライン手法を上回り、さらに40倍以上の効率向上を実現することを示しており、動的でインタラクティブなAIアプリケーションの可能性を示しています。

原文(英語)を表示

Title (EN): Online Language Splatting

arXiv:2503.09447v2 Announce Type: replace
Abstract: To enable AI agents to interact seamlessly with both humans and 3D environments, they must not only perceive the 3D world accurately but also align human language with 3D spatial representations. While prior work has made significant progress by integrating language features into geometrically detailed 3D scene representations using 3D Gaussian Splatting (GS), these approaches rely on computationally intensive offline preprocessing of language features for each input image, limiting adaptability to new environments. In this work, we introduce Online Language Splatting, the first framework to achieve online, near real-time, open-vocabulary language mapping within a 3DGS-SLAM system without requiring pre-generated language features. The key challenge lies in efficiently fusing high-dimensional language features into 3D representations while balancing the computation speed, memory usage, rendering quality and open-vocabulary capability. To this end, we innovatively design: (1) a high-resolution CLIP embedding module capable of generating detailed language feature maps in 18ms per frame, (2) a two-stage online auto-encoder that compresses 768-dimensional CLIP features to 15 dimensions while preserving open-vocabulary capabilities, and (3) a color-language disentangled optimization approach to improve rendering quality. Experimental results show that our online method not only surpasses the state-of-the-art offline methods in accuracy but also achieves more than 40x efficiency boost, demonstrating the potential for dynamic and interactive AI applications.

Published: 2025-09-24 19:00 UTC


コメントする