画像キャプションのための多様式評価フレームワーク:分布的、知覚的、言語的シグナルの三角測量によるリデンプションスコア
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.16180v2 発表種別:replace-cross
要約:画像キャプションの評価には、視覚意味論と言語プラグマティクスの両方を包括的に評価する必要があるが、多くの指標では完全に捉えられていないことが多い。本稿では、3つの補完的なシグナルを三角測量することで画像キャプションをランク付けする、新しいハイブリッドフレームワークであるRedemption Score(RS)を紹介する。(1) グローバルな画像テキスト分布整合性のための相互情報量ダイバージェンス(MID)、(2) 循環生成画像の知覚的類似性のためのDINOベース手法、(3) ヒューマンリファレンスに対する文脈的テキスト類似性のためのLLMテキスト埋め込み。これらのシグナルの較正された融合により、RSはより包括的な評価を提供する。Flickr8kベンチマークにおいて、RSは58.42のKendall-τを達成し、ほとんどの従来手法を上回り、タスク固有のトレーニングを必要とせずに、人間の判断との相関性に優れていることを示している。本フレームワークは、視覚的精度とテキスト品質の両方を徹底的に検証することにより、より堅牢で微妙な評価を提供し、Conceptual CaptionsとMS COCOにおいて一貫した性能を示す。
原文(英語)を表示
Title (EN): Redemption Score: A Multi-Modal Evaluation Framework for Image Captioning via Distributional, Perceptual, and Linguistic Signal Triangulation
arXiv:2505.16180v2 Announce Type: replace-cross
Abstract: Evaluating image captions requires cohesive assessment of both visual semantics and language pragmatics, which is often not entirely captured by most metrics. We introduce Redemption Score(RS), a novel hybrid framework that ranks image captions by triangulating three complementary signals: (1) Mutual Information Divergence (MID) for global image-text distributional alignment, (2) DINO-based perceptual similarity of cycle-generated images for visual grounding, and (3) LLM Text Embeddings for contextual text similarity against human references. A calibrated fusion of these signals allows RS to offer a more holistic assessment. On the Flickr8k benchmark, RS achieves a Kendall-$\tau$ of 58.42, outperforming most prior methods and demonstrating superior correlation with human judgments without requiring task-specific training. Our framework provides a more robust and nuanced evaluation by thoroughly examining both the visual accuracy and text quality together, with consistent performance across Conceptual Captions and MS COCO.
Published: 2025-09-24 19:00 UTC