アテンションガイダンスによるLLMベースTTSモデルの安定性幻覚除去
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19852v1発表形式:クロス
概要:本論文は、アテンション機構の改良と活用による、大規模言語モデル(LLM)ベースの音声合成(TTS)モデル、CosyVoice2における安定性幻覚(例:反復または脱落した音声)の解決に焦点を当てている。まず、LLMにおけるテキストトークンと音声トークン間の整列機構を分析し、ビタビアルゴリズムを用いてテキスト音声の整列品質を評価する指標Optimal Alignment Score(OAS)を提案した。その後、OASをCosyVoice2の学習に統合することで、LLMが連続的で安定した整列を学習することを支援した。さらに、事前学習されたアテンション値を用いて、思考連鎖(CoT)により生徒モデルであるCosyVoice2の学習を誘導し、合成音声における安定性幻覚を更に低減した。Seed-TTS-EvalおよびCV3-Evalテストセットを用いた実験により、提案手法がCosyVoice2の安定性幻覚を効果的に低減し、追加的な悪影響を及ぼさないことを示した。付録はhttps://wsmzzz.github.io/llm_attnに掲載されている。
原文(英語)を表示
Title (EN): Eliminating stability hallucinations in llm-based tts models via attention guidance
arXiv:2509.19852v1 Announce Type: cross
Abstract: This paper focuses on resolving stability hallucinations (e.g., repetitive or omitted speech) in LLM-based Text-to-Speech (TTS) models by improving and leveraging the attention mechanism. First, we analyzed the alignment mechanism between text tokens and speech tokens in LLMs. We then proposed a metric termed the Optimal Alignment Score (OAS), which employs the Viterbi algorithm to evaluate text-speech alignment quality. Subsequently, OAS was integrated into the training of CosyVoice2 to assist LLMs in learning continuous, stable alignment. Additionally, the pre-trained attention value is employed to guide the training of the student CosyVoice2 via chain-of-thought (CoT), which further reduces stability hallucinations in synthesized speech. Experiments on the Seed-TTS-Eval and CV3-Eval test sets demonstrate that the proposed methods can effectively reduce the stability hallucinations of CosyVoice2 without introducing additional negative effects. The appendix is available at https://wsmzzz.github.io/llm_attn.
Published: 2025-09-24 19:00 UTC