ArtiFree:拡散型音声強調における生成アーティファクトの検出と低減
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19495v1発表タイプ:クロス
要約:拡散型音声強調(SE)は自然な音質の音声と強力な汎化性能を実現する一方、生成アーティファクトや高い推論遅延といった重要な制限を抱えている。本研究では、拡散型SEにおけるアーティファクト予測と低減を体系的に調査する。音声埋め込みの分散を用いて、推論中の音声学的エラーを予測できることを示す。これらの知見に基づき、複数の拡散実行における意味的一貫性によって導かれるアンサンブル推論手法を提案する。この手法は低SNR条件下でWERを15%削減し、音声学的精度と意味的妥当性を効果的に向上させる。最後に、拡散ステップ数の影響を分析し、適応型拡散ステップがアーティファクト抑制と遅延のバランスをとることを示す。これらの知見は、意味的事前情報を、アーティファクトのない出力に向けて生成型SEを導く強力なツールとして強調している。
原文(英語)を表示
Title (EN): ArtiFree: Detecting and Reducing Generative Artifacts in Diffusion-based Speech Enhancement
arXiv:2509.19495v1 Announce Type: cross
Abstract: Diffusion-based speech enhancement (SE) achieves natural-sounding speech and strong generalization, yet suffers from key limitations like generative artifacts and high inference latency. In this work, we systematically study artifact prediction and reduction in diffusion-based SE. We show that variance in speech embeddings can be used to predict phonetic errors during inference. Building on these findings, we propose an ensemble inference method guided by semantic consistency across multiple diffusion runs. This technique reduces WER by 15% in low-SNR conditions, effectively improving phonetic accuracy and semantic plausibility. Finally, we analyze the effect of the number of diffusion steps, showing that adaptive diffusion steps balance artifact suppression and latency. Our findings highlight semantic priors as a powerful tool to guide generative SE toward artifact-free outputs.
Published: 2025-09-24 19:00 UTC