テキストから音声へ:音声言語モデルは非自己回帰同時学習を必要とする

テキストから音声へ:音声言語モデルは非自己回帰同時学習を必要とする

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20072v1 発表種別:新規

概要:大規模言語モデルの最近の進歩により、その能力をマルチモーダルなシナリオ、特に音声入力音声出力型会話システムに拡張することに大きな関心が寄せられています。しかし、MOSHIなどの、音声とテキストが混在するマルチモーダルモデルは、複雑な多段階トレーニングパイプラインを必要とし、多大な計算コストがかかります。さらに、これらのモデルはテキストトークンとオーディオトークンの両方に自己回帰的生成を一様に適用しており、それらの依存構造における根本的な非対称性を無視しています。テキストトークンは因果的順序付けを必要とする強いターゲット間の依存性を示す一方、オーディオトークンは主にソースターゲット依存性によって駆動され、オーディオ出力は先行するオーディオトークンよりもソーステキストを主に条件とします。本研究では、事前学習済みLLMから初期化された単一のTransformerアーキテクチャ内で、自己回帰型テキスト生成と非自己回帰型オーディオ拡散を統合する統一的なオーディオテキストモデリングフレームワークTtTを提案します。

原文(英語)を表示

Title (EN): From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training

arXiv:2509.20072v1 Announce Type: new
Abstract: Recent advances in large language models have attracted significant interest in extending their capabilities to multimodal scenarios, particularly for speech-in speech-out conversational systems. However, existing multimodal models handling interleaved audio and text, such as MOSHI require complex multi stage training pipelines, incurring substantial computational costs. Moreover, these models uniformly apply autoregressive generation to both text and audio tokens, overlooking a fundamental asymmetry in their dependency structures: while text tokens exhibit strong target target dependencies requiring causal ordering, audio tokens are predominantly driven by source target dependencies, where audio outputs primarily condition on source text rather than preceding audio tokens. In this work, we propose TtT, a unified audio-text modeling framework that integrates AR text generation with non-autoregressive audio diffusion within a single Transformer architecture initialized from a pretrained LLM.

Published: 2025-09-24 19:00 UTC


コメントする