ASR向け検索拡張生成に基づくコンテキスト検出
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19567v1 発表種別:新規
概要:本研究は、語彙外単語や稀少単語が存在する場合の音声認識精度向上のため、文脈認識型自動音声認識(ASR)システムにおける効率的な文脈自動発見戦略として、検索拡張生成を検討する。しかし、適切な文脈を自動的に特定することは依然として未解決課題である。本研究は、ASRにおける文脈自動発見のための効率的な埋め込みベース検索手法を提案する。その有効性を検証するため、大規模言語モデル(LLM)に基づく2つの代替手法、(1)プロンプトを用いたLLMによる文脈生成、(2)LLMを用いた認識後転写修正、についても評価した。TED-LIUMv3、Earnings21、SPGISpeechを用いた実験により、提案手法は文脈なしの場合と比較してWERを最大17%(差分比率)削減し、理想的な文脈を用いた場合のWER削減率は最大24.1%であることを示した。
原文(英語)を表示
Title (EN): Retrieval Augmented Generation based context discovery for ASR
arXiv:2509.19567v1 Announce Type: new
Abstract: This work investigates retrieval augmented generation as an efficient strategy for automatic context discovery in context-aware Automatic Speech Recognition (ASR) system, in order to improve transcription accuracy in the presence of rare or out-of-vocabulary terms. However, identifying the right context automatically remains an open challenge. This work proposes an efficient embedding-based retrieval approach for automatic context discovery in ASR. To contextualize its effectiveness, two alternatives based on large language models (LLMs) are also evaluated: (1) large language model (LLM)-based context generation via prompting, and (2) post-recognition transcript correction using LLMs. Experiments on the TED-LIUMv3, Earnings21 and SPGISpeech demonstrate that the proposed approach reduces WER by up to 17% (percentage difference) relative to using no-context, while the oracle context results in a reduction of up to 24.1%.
Published: 2025-09-24 19:00 UTC