Stylus:メルスペクトログラム上での訓練不要な音楽スタイル変換に向けたStable Diffusionの転用
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2411.15913v3発表タイプ:置換クロス
概要:音楽スタイル変換は、ソースの構造と参照のスタイル属性を融合させることで、パーソナライズされた音楽制作を可能にします。既存のテキスト条件付きおよび拡散ベースのアプローチは有望ですが、多くの場合、ペアデータセット、広範なトレーニング、または詳細なアノテーションが必要です。本稿では、事前学習済みのStable Diffusionモデルをメルスペクトログラム領域における音楽スタイル変換に転用する、トレーニング不要なフレームワーク、Stylusを紹介します。Stylusは、音楽構造を維持するためにソースクエリを保持しながら、スタイルキーバリュー特徴を注入することにより、自己注意を操作します。忠実度を向上させるために、Griffin-Lim再構成からのアーティファクトを回避する位相保存再構成戦略を導入し、調整可能なスタイライゼーションとマルチスタイルブレンドのためのclassifier-free-guidanceにヒントを得た制御を採用しています。広範な評価において、Stylusは最先端のベースラインを上回り、追加のトレーニングなしで、コンテンツ保持率を34.1%、知覚品質を25.7%向上させました。
原文(英語)を表示
Title (EN): Stylus: Repurposing Stable Diffusion for Training-Free Music Style Transfer on Mel-Spectrograms
arXiv:2411.15913v3 Announce Type: replace-cross
Abstract: Music style transfer enables personalized music creation by blending the structure of a source with the stylistic attributes of a reference. Existing text-conditioned and diffusion-based approaches show promise but often require paired datasets, extensive training, or detailed annotations. We present Stylus, a training-free framework that repurposes a pre-trained Stable Diffusion model for music style transfer in the mel-spectrogram domain. Stylus manipulates self-attention by injecting style key-value features while preserving source queries to maintain musical structure. To improve fidelity, we introduce a phase-preserving reconstruction strategy that avoids artifacts from Griffin-Lim reconstruction, and we adopt classifier-free-guidance-inspired control for adjustable stylization and multi-style blending. In extensive evaluations, Stylus outperforms state-of-the-art baselines, achieving 34.1% higher content preservation and 25.7% better perceptual quality without any additional training.
Published: 2025-09-24 19:00 UTC