ASR向け検索拡張生成に基づくコンテキスト検出

ASR向け検索拡張生成に基づくコンテキスト検出

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19567v1発表。種類:新規。

概要:本研究は、自動音声認識(ASR)システムにおける文脈認識における効率的な文脈発見戦略として、検索拡張生成を調査し、稀少語または語彙外単語が存在する場合の転写精度を向上させる。しかし、適切な文脈を自動的に特定することは依然として未解決の課題である。本研究は、ASRにおける自動文脈発見のための効率的な埋め込みベースの検索手法を提案する。その有効性を検証するため、大規模言語モデル(LLM)に基づく2つの代替手法、(1)プロンプトによる大規模言語モデル(LLM)に基づく文脈生成、および(2)LLMを用いた認識後転写修正についても評価する。TED-LIUMv3、Earnings21、SPGISpeechを用いた実験により、提案手法は文脈なしの場合と比較してWERを最大17%(パーセンテージ差)削減し、オラクル文脈を用いた場合、最大24.1%の削減を示した。

原文(英語)を表示

Title (EN): Retrieval Augmented Generation based context discovery for ASR

arXiv:2509.19567v1 Announce Type: new
Abstract: This work investigates retrieval augmented generation as an efficient strategy for automatic context discovery in context-aware Automatic Speech Recognition (ASR) system, in order to improve transcription accuracy in the presence of rare or out-of-vocabulary terms. However, identifying the right context automatically remains an open challenge. This work proposes an efficient embedding-based retrieval approach for automatic context discovery in ASR. To contextualize its effectiveness, two alternatives based on large language models (LLMs) are also evaluated: (1) large language model (LLM)-based context generation via prompting, and (2) post-recognition transcript correction using LLMs. Experiments on the TED-LIUMv3, Earnings21 and SPGISpeech demonstrate that the proposed approach reduces WER by up to 17% (percentage difference) relative to using no-context, while the oracle context results in a reduction of up to 24.1%.

Published: 2025-09-24 19:00 UTC


コメントする