多言語音声テキスト変換における大規模言語モデルを用いた漸進的アライメント表現学習 (PART)

多言語音声テキスト変換における大規模言語モデルを用いた漸進的アライメント表現学習 (PART)

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19745v1 発表種別:新規

概要:大規模言語モデル(LLM)はテキストから音声へと展開し、認識、翻訳、合成を支援する音声大規模モデル(SLM)を生み出しました。主要な課題は音声とテキスト表現の整合であり、多言語設定では困難になります。既存の手法はしばしばLLMパラメータを固定し、多言語データでエンコーダを訓練しますが、これは言語間の収束を強制し、性能を制限します。本稿では、言語内整合と言語間整合を分離する多段階・多タスクフレームワークであるProgressive Alignment Representation Training(PART)を提案します。言語間訓練においては、LLMパラメータを動的に活性化し、その後、テキストベースのタスクを導入して多言語理解を向上させます。CommonVoice 15、Fleurs、Wenetspeech、CoVoST2を用いた実験により、PARTは従来の手法を凌駕し、言語固有の差異と言語間汎化のバランスをとる能力が確認されました。これらの結果は、PARTが多言語音声モダリティ整合に対する有効性と汎用性を示しています。

原文(英語)を表示

Title (EN): PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs

arXiv:2509.19745v1 Announce Type: new
Abstract: Large language models (LLMs) have expanded from text to speech, giving rise to Speech Large Models (SLMs) that support recognition, translation, and synthesis. A key challenge is aligning speech and text representations, which becomes harder in multilingual settings. Existing methods often freeze LLM parameters and train encoders on multilingual data, but this forces cross-language convergence and limits performance. We introduce Progressive Alignment Representation Training (PART), a multi-stage and multi-task framework that separates within-language from cross-language alignment. During cross-language training, LLM parameters are dynamically activated, and text-based tasks are later introduced to enhance multilingual understanding. Experiments on CommonVoice 15, Fleurs, Wenetspeech, and CoVoST2 show that PART surpasses conventional approaches, with analysis confirming its ability to balance language-specific distinctions and cross-language generalization. These results demonstrate PART’s effectiveness and generality for multilingual speech modality alignment.

Published: 2025-09-24 19:00 UTC


コメントする