効率的なマルチコードブック音声生成のためのフレームスタック局所トランスフォーマー
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19592v1発表タイプ:クロス
概要:大規模言語モデル(LLM)に基づく音声生成モデルは、典型的には離散的な音響コード上で動作するが、これはマルチコードブック構造を持つため、テキストトークンとは根本的に異なる。各タイムステップにおいて、モデルはN個のコードブックエントリを同時に予測する必要があり、単純な並列予測アプローチを困難にする依存関係が生じる。並列予測はコードブック間の独立性を仮定するため、効率的なデコードが可能となるが、忠実度の低下を招くことが多い。これに対処するため、階層型戦略では、局所トランスフォーマー(LT)を用いて予測を洗練し、タイムステップ内の依存関係を捉える。本研究では、コードブックを逐次的に生成する自己回帰型トランスフォーマー、および反復的なマスク予測を行うMaskGITベースのトランスフォーマーという、2つのLTアーキテクチャを体系的に調査する。どちらの設計も、主トランスフォーマーが複数のフレームを同時に予測し、LTがそれらのコードブックをデコードするフレームスタッキングを可能にし、知覚品質を損なうことなく速度を向上させる。広範な分析を通じて、異なるスループットと品質の体制における並列サンプリング戦略と反復サンプリング戦略間のトレードオフを明らかにする。最後に、計算効率と合成忠実度などの展開上の優先順位に基づいてデコード戦略を選択するための実践的なガイドラインを提案する。
原文(英語)を表示
Title (EN): Frame-Stacked Local Transformers For Efficient Multi-Codebook Speech Generation
arXiv:2509.19592v1 Announce Type: cross
Abstract: Speech generation models based on large language models (LLMs) typically operate on discrete acoustic codes, which differ fundamentally from text tokens due to their multicodebook structure. At each timestep, models must predict N codebook entries jointly, introducing dependencies that challenge simple parallel prediction approaches. Parallel prediction assumes independence among codebooks, yielding efficient decoding but often at the cost of reduced fidelity. To address this, hierarchical strategies employ a local transformer (LT) to refine predictions and capture intra-timestep dependencies. In this work, we systematically investigate two LT architectures: an autoregressive transformer that generates codebooks sequentially, and a MaskGIT-based transformer that performs iterative masked prediction. Both designs further enable frame stacking, where the primary transformer predicts multiple frames jointly, and the LT decodes their codebooks, offering improvements in speed without compromising perceptual quality. Through extensive analysis, we characterize the tradeoffs between parallel and iterative sampling strategies across different throughput and quality regimes. Finally, we propose practical guidelines for selecting decoding strategies based on deployment priorities such as computational efficiency and synthesis fidelity.
Published: 2025-09-24 19:00 UTC