DRES:流暢性除去のためのLLMベンチマーク

DRES:流暢性除去のためのLLMベンチマーク

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.20321v1発表タイプ:クロス

要旨: 「えー」「あのー」といった間投詞、挿入句、修正発言などの流暢性欠如は、音声駆動システムにおいて、コマンド解釈、要約、会話エージェントにおける精度を低下させる持続的な課題となっている。本稿では、このタスクに対する再現可能な意味上の上限を確立する、制御されたテキストレベルのベンチマークであるDRES(Disfluency Removal Evaluation Suite)を紹介する。DRESは、人間がアノテーションを付けたSwitchboardトランスクリプトに基づいて構築され、ASRエラーや音響変動から流暢性欠如除去を分離している。様々な規模、プロンプト戦略、アーキテクチャを持つ、独自開発およびオープンソースのLLMを体系的に評価した。その結果、(i)単純なセグメンテーションは、長文コンテキストモデルにおいても一貫して性能を向上させること、(ii)推論指向モデルは流暢なトークンを過剰に削除する傾向があること、(iii)ファインチューニングはほぼ最先端の精度と再現率を達成するが、汎化能力を損なうことが明らかになった。さらに、LLM固有のエラーモードのセットを示し、音声駆動パイプラインにおける流暢性欠如除去の展開のための9つの実践的な推奨事項(R1~R9)を提示する。DRESは、堅牢な音声言語システムの発展のための、再現可能でモデル非依存の基盤を提供する。

原文(英語)を表示

Title (EN): DRES: Benchmarking LLMs for Disfluency Removal

arXiv:2509.20321v1 Announce Type: cross
Abstract: Disfluencies — such as “um,” “uh,” interjections, parentheticals, and edited statements — remain a persistent challenge for speech-driven systems, degrading accuracy in command interpretation, summarization, and conversational agents. We introduce DRES (Disfluency Removal Evaluation Suite), a controlled text-level benchmark that establishes a reproducible semantic upper bound for this task. DRES builds on human-annotated Switchboard transcripts, isolating disfluency removal from ASR errors and acoustic variability. We systematically evaluate proprietary and open-source LLMs across scales, prompting strategies, and architectures. Our results reveal that (i) simple segmentation consistently improves performance, even for long-context models; (ii) reasoning-oriented models tend to over-delete fluent tokens; and (iii) fine-tuning achieves near state-of-the-art precision and recall but harms generalization abilities. We further present a set of LLM-specific error modes and offer nine practical recommendations (R1-R9) for deploying disfluency removal in speech-driven pipelines. DRES provides a reproducible, model-agnostic foundation for advancing robust spoken-language systems.

Published: 2025-09-24 19:00 UTC


コメントする