ゼロショット音声合成のための選択的分類子フリーガイダンス

ゼロショット音声合成のための選択的分類子フリーガイダンス

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19668v1発表タイプ:クロス

要約:ゼロショットテキスト音声変換において、ターゲット話者への忠実度とテキスト内容への遵守のバランスを取ることは依然として課題である。Classifier-free guidance (CFG)戦略は画像生成において有望な結果を示しているが、音声合成への応用は未開拓である。CFGに使用される条件を分離することで、音声合成における様々な望ましい特性間のトレードオフが可能になる。本論文では、画像生成向けに開発されたCFG戦略の音声合成への適応性を評価し、分離条件CFGアプローチをこの分野に拡張する。その結果、画像生成において有効なCFG戦略は一般的に音声合成を改善しないことが示された。また、初期のタイムステップでは標準的なCFGを適用し、後期のタイムステップでは選択的CFGに切り替えることで、話者類似性を向上させながらテキスト遵守の劣化を抑制できることも分かった。驚くべきことに、選択的CFG戦略の有効性はテキスト表現に大きく依存しており、英語と中国語の2つの言語間の違いによって、同じモデルであっても異なる結果が生じる可能性があることが観察された。

原文(英語)を表示

Title (EN): Selective Classifier-free Guidance for Zero-shot Text-to-speech

arXiv:2509.19668v1 Announce Type: cross
Abstract: In zero-shot text-to-speech, achieving a balance between fidelity to the target speaker and adherence to text content remains a challenge. While classifier-free guidance (CFG) strategies have shown promising results in image generation, their application to speech synthesis are underexplored. Separating the conditions used for CFG enables trade-offs between different desired characteristics in speech synthesis. In this paper, we evaluate the adaptability of CFG strategies originally developed for image generation to speech synthesis and extend separated-condition CFG approaches for this domain. Our results show that CFG strategies effective in image generation generally fail to improve speech synthesis. We also find that we can improve speaker similarity while limiting degradation of text adherence by applying standard CFG during early timesteps and switching to selective CFG only in later timesteps. Surprisingly, we observe that the effectiveness of a selective CFG strategy is highly text-representation dependent, as differences between the two languages of English and Mandarin can lead to different results even with the same model.

Published: 2025-09-24 19:00 UTC


コメントする