エッジクラウド物体検出のためのマルチモーダルLLMによる意味拡張適応ガイダンス
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19875v1発表タイプ:クロス
要約:従来の物体検出方法は、高レベルのセマンティック理解の欠如により、低照度条件や激しいオクルージョンなどの複雑な状況下で性能劣化の問題に直面する。本稿では、この問題に対処するため、マルチモーダル大規模言語モデル(MLLM)を活用した、適応型ガイダンスに基づくセマンティック強化エッジ・クラウド協調物体検出法を提案し、精度と効率の有効なバランスを実現する。具体的には、まず、指示ファインチューニングを用いてMLLMに構造化されたシーン記述を生成させ、次に、セマンティック情報をエッジ検出器のパラメータ調整信号に動的に変換する適応型マッピング機構を設計し、リアルタイムのセマンティック強化を実現する。エッジ・クラウド協調推論フレームワークにおいて、システムは信頼度スコアに基づいて、クラウドベースのセマンティックガイダンスの呼び出しとエッジ検出結果の直接出力のいずれかを選択的に行う。実験により、提案手法は複雑なシーンにおいて検出精度と効率を効果的に向上させることが実証された。具体的には、低照度および高度にオクルージョンされたシーンにおいて、遅延を79%以上、計算コストを70%削減しながら精度を維持できる。
原文(英語)を表示
Title (EN): Adaptive Guidance Semantically Enhanced via Multimodal LLM for Edge-Cloud Object Detection
arXiv:2509.19875v1 Announce Type: cross
Abstract: Traditional object detection methods face performance degradation challenges in complex scenarios such as low-light conditions and heavy occlusions due to a lack of high-level semantic understanding. To address this, this paper proposes an adaptive guidance-based semantic enhancement edge-cloud collaborative object detection method leveraging Multimodal Large Language Models (MLLM), achieving an effective balance between accuracy and efficiency. Specifically, the method first employs instruction fine-tuning to enable the MLLM to generate structured scene descriptions. It then designs an adaptive mapping mechanism that dynamically converts semantic information into parameter adjustment signals for edge detectors, achieving real-time semantic enhancement. Within an edge-cloud collaborative inference framework, the system automatically selects between invoking cloud-based semantic guidance or directly outputting edge detection results based on confidence scores. Experiments demonstrate that the proposed method effectively enhances detection accuracy and efficiency in complex scenes. Specifically, it can reduce latency by over 79% and computational cost by 70% in low-light and highly occluded scenes while maintaining accuracy.
Published: 2025-09-24 19:00 UTC