CoMelSinger:構造化されたメロディー制御とガイダンスによる、離散トークンベースのゼロショット歌唱合成
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19883v1発表タイプ:クロス
概要:歌唱音声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から表現力豊かな歌唱パフォーマンスを生成することを目指す。最近の離散コーデックベースの音声合成の進歩により、コンテキスト学習によるゼロショット生成が可能になったが、正確なメロディー制御が必要なSVSにこれらの手法を直接適用することは、容易ではない。特に、プロンプトベースの生成では、ピッチ情報が音色プロンプトに意図せず混在するプロソディー漏れが発生し、制御可能性が損なわれることが多い。本稿では、離散コーデックモデリングパラダイム内で構造化され、分離されたメロディー制御を可能にするゼロショットSVSフレームワークであるCoMelSingerを紹介する。非自己回帰型MaskGCTアーキテクチャに基づいて構築されたCoMelSingerは、従来のテキスト入力を歌詞トークンとピッチトークンに置き換え、コンテキスト汎化性を維持しながらメロディーコンディショニングを強化する。プロソディー漏れを抑制するために、音響プロンプトとメロディー入力間のピッチ冗長性を明示的に正規化する粗密コントラスト学習戦略を提案する。さらに、音響トークンとピッチおよび持続時間を整合させる軽量なエンコーダーのみの歌唱音声転写(SVT)モジュールを組み込み、きめ細かいフレームレベルの教師あり学習を提供する。実験結果により、CoMelSingerは、競合するベースラインと比較して、ピッチ精度、音色の一貫性、ゼロショット転移性において顕著な改善を達成することが示された。
原文(英語)を表示
Title (EN): CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance
arXiv:2509.19883v1 Announce Type: cross
Abstract: Singing Voice Synthesis (SVS) aims to generate expressive vocal performances from structured musical inputs such as lyrics and pitch sequences. While recent progress in discrete codec-based speech synthesis has enabled zero-shot generation via in-context learning, directly extending these techniques to SVS remains non-trivial due to the requirement for precise melody control. In particular, prompt-based generation often introduces prosody leakage, where pitch information is inadvertently entangled within the timbre prompt, compromising controllability. We present CoMelSinger, a zero-shot SVS framework that enables structured and disentangled melody control within a discrete codec modeling paradigm. Built on the non-autoregressive MaskGCT architecture, CoMelSinger replaces conventional text inputs with lyric and pitch tokens, preserving in-context generalization while enhancing melody conditioning. To suppress prosody leakage, we propose a coarse-to-fine contrastive learning strategy that explicitly regularizes pitch redundancy between the acoustic prompt and melody input. Furthermore, we incorporate a lightweight encoder-only Singing Voice Transcription (SVT) module to align acoustic tokens with pitch and duration, offering fine-grained frame-level supervision. Experimental results demonstrate that CoMelSinger achieves notable improvements in pitch accuracy, timbre consistency, and zero-shot transferability over competitive baselines.
Published: 2025-09-24 19:00 UTC