EAI-アバター:感情認識型インタラクティブ会話ヘッド生成
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2508.18337v2 発表種別:置換クロス
概要:生成モデルは急速に進歩し、AIに生命感を与える印象的なトークヘッド生成を可能にしている。しかし、既存の方法はほとんど片方向のポートレートアニメーションのみに焦点を当てている。双方向の会話的インタラクションをサポートする少数の方法でさえ、正確な感情適応機能を欠いており、実用的な適用性を著しく制限している。本論文では、双方向インタラクションのための、感情認識トークヘッド生成フレームワークであるEAI-Avatarを提案する。大規模言語モデル(LLM、例えばGPT-4)の対話生成能力を活用することで、本手法は、話す状態と聞く状態の間をシームレスに遷移する、豊かな感情変化を伴う時間的に一貫性のある仮想アバターを生成する。具体的には、潜在マスク空間において時間的に一貫性のあるモーション特徴を学習するTransformerベースのヘッドマスクジェネレーターを設計し、任意の長さの時間的に一貫性のあるマスクシーケンスを生成してヘッドモーションを制約する。さらに、各ツリーノードが子ノード/親ノード/兄弟ノードおよび現在のキャラクターの感情状態などの情報を含む対話状態遷移を表すインタラクティブなトークツリー構造を導入する。逆順レベル走査を行うことで、現在のノードから豊富な過去の感情的手がかりを抽出し、表情合成を導く。広範な実験により、本手法の優れた性能と有効性が示された。
原文(英語)を表示
Title (EN): EAI-Avatar: Emotion-Aware Interactive Talking Head Generation
arXiv:2508.18337v2 Announce Type: replace-cross
Abstract: Generative models have advanced rapidly, enabling impressive talking head generation that brings AI to life. However, most existing methods focus solely on one-way portrait animation. Even the few that support bidirectional conversational interactions lack precise emotion-adaptive capabilities, significantly limiting their practical applicability. In this paper, we propose EAI-Avatar, a novel emotion-aware talking head generation framework for dyadic interactions. Leveraging the dialogue generation capability of large language models (LLMs, e.g., GPT-4), our method produces temporally consistent virtual avatars with rich emotional variations that seamlessly transition between speaking and listening states. Specifically, we design a Transformer-based head mask generator that learns temporally consistent motion features in a latent mask space, capable of generating arbitrary-length, temporally consistent mask sequences to constrain head motions. Furthermore, we introduce an interactive talking tree structure to represent dialogue state transitions, where each tree node contains information such as child/parent/sibling nodes and the current character’s emotional state. By performing reverse-level traversal, we extract rich historical emotional cues from the current node to guide expression synthesis. Extensive experiments demonstrate the superior performance and effectiveness of our method.
Published: 2025-09-24 19:00 UTC