KSDiff:キーフレーム拡張型音声認識デュアルパス拡散による顔面アニメーション

KSDiff:キーフレーム拡張型音声認識デュアルパス拡散による顔面アニメーション

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20128v1発表形式:クロス

概要:音声駆動型顔面アニメーションはマルチメディアアプリケーションにおいて著しい進歩を遂げており、拡散モデルは会話顔合成において大きな可能性を示している。しかしながら、既存の研究の大部分は音声特徴を単一の表現として扱い、様々な顔面運動を駆動する上でのその詳細な役割を捉えられていないばかりか、激しいダイナミクスを持つキーフレームのモデリングの重要性も見過ごされている。これらの限界に対処するため、本研究ではキーフレーム拡張型音声認識デュアルパス拡散フレームワークであるKSDiffを提案する。具体的には、生の音声とトランスクリプトはデュアルパス音声エンコーダ(DPSE)によって処理され、表情関連特徴と頭部姿勢関連特徴が分離され、自己回帰型キーフレーム確立学習(KEL)モジュールが最も顕著な動きフレームを予測する。これらの構成要素はデュアルパスモーションジェネレーターに統合され、首尾一貫性があり現実的な顔面運動を合成する。HDTFとVoxCelebを用いた広範な実験により、KSDiffは最先端の性能を達成し、唇の同期精度と頭部姿勢の自然さの両方が向上することが示された。本研究の結果は、会話ヘッド生成において音声分離とキーフレーム認識拡散を組み合わせる有効性を示している。

原文(英語)を表示

Title (EN): KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation

arXiv:2509.20128v1 Announce Type: cross
Abstract: Audio-driven facial animation has made significant progress in multimedia applications, with diffusion models showing strong potential for talking-face synthesis. However, most existing works treat speech features as a monolithic representation and fail to capture their fine-grained roles in driving different facial motions, while also overlooking the importance of modeling keyframes with intense dynamics. To address these limitations, we propose KSDiff, a Keyframe-Augmented Speech-Aware Dual-Path Diffusion framework. Specifically, the raw audio and transcript are processed by a Dual-Path Speech Encoder (DPSE) to disentangle expression-related and head-pose-related features, while an autoregressive Keyframe Establishment Learning (KEL) module predicts the most salient motion frames. These components are integrated into a Dual-path Motion generator to synthesize coherent and realistic facial motions. Extensive experiments on HDTF and VoxCeleb demonstrate that KSDiff achieves state-of-the-art performance, with improvements in both lip synchronization accuracy and head-pose naturalness. Our results highlight the effectiveness of combining speech disentanglement with keyframe-aware diffusion for talking-head generation.

Published: 2025-09-24 19:00 UTC


コメントする