強化学習を用いたマルチモーダル大規模言語モデルにおける音声要約技術の向上
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19631v1発表形式:クロス
概要:音声要約は、特に音声および視聴覚データの急速な増加を背景とする、音声コンテンツ理解において重要な要素である。大規模言語モデル(LLM)を活用した最近のマルチモーダル大規模言語モデル(MLLM)の進歩により、中間転写なしで音声から直接テキスト要約を生成することが可能となり、制御可能なスタイルとゼロショット汎化に対応できるようになった。しかしながら、オープンソースのMLLMは、最先端のテキストベースLLMに依然として遅れを取っており、音声要約への実用的な展開を制限している。本研究では、MLLMの音声要約能力を向上させるための新規な多段階強化学習訓練フレームワークを提案する。提案モデルは、強力なベースラインと比較して大幅な改善を示し、はるかに大規模なMLLMを凌駕し、最先端のテキストベースLLMとの差を大幅に縮小する。
原文(英語)を表示
Title (EN): Advancing Speech Summarization in Multi-modal LLMs with Reinforcement Learning
arXiv:2509.19631v1 Announce Type: cross
Abstract: Speech summarization is a critical component of spoken content understanding, particularly in the era of rapidly growing spoken and audiovisual data. Recent advances in multi-modal large language models (MLLMs), leveraging the power of LLMs, enable generating textual summaries directly from speech without intermediate transcriptions, while supporting controllable styles and zero-shot generalization. However, open-source MLLMs continue to lag behind the state-of-the-art text-based LLMs, limiting their practical deployment for speech summarization. In this work, we present a novel multi-stage reinforcement learning training framework to enhance the speech summarization capabilities in MLLMs. Our model delivers substantial improvements over strong baselines, outperforms much larger MLLMs, and significantly narrows the gap with state-of-the-art text-based LLMs.
Published: 2025-09-24 19:00 UTC