非線形オーディオ効果の教師なし推定:拡散ベースと敵対的アプローチの比較
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2504.04751v2 発表種別:置換クロス
要約:ペアになった入出力信号へのアクセスがない状態で、非線形オーディオ効果を正確に推定することは依然として困難な課題です。本研究では、この課題を解決するための教師なし確率的手法について検討します。ブラックボックスおよびグレイボックスモデルを用いた未知の非線形効果の推定を可能にする、盲システム同定のための拡散生成モデルに基づく、この用途では新規な手法を紹介します。本研究では、この手法を以前に提案された敵対的アプローチと比較し、効果演算子のパラメータ設定と利用可能な効果音録音の長さの両方を変えた場合の両手法の性能を分析します。ギターの歪み効果に関する実験を通して、拡散に基づくアプローチはより安定した結果を提供し、データの可用性に対する感度が低い一方で、敵対的アプローチはより顕著な歪み効果の推定において優れていることを示します。我々の知見は、オーディオ効果の堅牢な教師なし盲推定に貢献し、音楽技術におけるシステム同定のための拡散モデルの可能性を示しています。
原文(英語)を表示
Title (EN): Unsupervised Estimation of Nonlinear Audio Effects: Comparing Diffusion-Based and Adversarial approaches
arXiv:2504.04751v2 Announce Type: replace-cross
Abstract: Accurately estimating nonlinear audio effects without access to paired input-output signals remains a challenging problem. This work studies unsupervised probabilistic approaches for solving this task. We introduce a method, novel for this application, based on diffusion generative models for blind system identification, enabling the estimation of unknown nonlinear effects using black- and gray-box models. This study compares this method with a previously proposed adversarial approach, analyzing the performance of both methods under different parameterizations of the effect operator and varying lengths of available effected recordings. Through experiments on guitar distortion effects, we show that the diffusion-based approach provides more stable results and is less sensitive to data availability, while the adversarial approach is superior at estimating more pronounced distortion effects. Our findings contribute to the robust unsupervised blind estimation of audio effects, demonstrating the potential of diffusion models for system identification in music technology.
Published: 2025-09-24 19:00 UTC