感情の解剖:大規模視覚言語モデルを用いた身体化された感情の物語化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19595v1 発行種別:新規
要旨:身体部位からの感情反応の具現化は、私たちの情動体験に関する豊富な情報を包含している。本稿では、最先端の大規模ビジョン言語モデル(LVLMs)を用いて、具現化されたLVLM感情記述(ELENA)を生成するフレームワークを提案する。これは明確に定義された多層的なテキスト出力であり、主に感情反応に関与する顕著な身体部位に焦点を当てた記述で構成される。また、アテンションマップを用いて分析を行い、現代のモデルが顔の領域に持続的なバイアスを示すことを確認した。この限界にもかかわらず、本フレームワークがマスクを着用した画像における具現化された感情を効果的に認識し、微調整なしでベースラインを上回る性能を示すことを確認した。ELENAは、視覚のモダリティにおける具現化された感情分析のための新たな方向性を提示し、情動認識を考慮したモデリングを豊かにする。
原文(英語)を表示
Title (EN): Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models
arXiv:2509.19595v1 Announce Type: new
Abstract: The embodiment of emotional reactions from body parts contains rich information about our affective experiences. We propose a framework that utilizes state-of-the-art large vision-language models (LVLMs) to generate Embodied LVLM Emotion Narratives (ELENA). These are well-defined, multi-layered text outputs, primarily comprising descriptions that focus on the salient body parts involved in emotional reactions. We also employ attention maps and observe that contemporary models exhibit a persistent bias towards the facial region. Despite this limitation, we observe that our employed framework can effectively recognize embodied emotions in face-masked images, outperforming baselines without any fine-tuning. ELENA opens a new trajectory for embodied emotion analysis across the modality of vision and enriches modeling in an affect-aware setting.
Published: 2025-09-24 19:00 UTC