WEST:LLMベースの音声ツールキット(音声理解、生成、対話向け)

WEST:LLMベースの音声ツールキット(音声理解、生成、対話向け)

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19902v1 発表種別: 新規

概要: 本論文では、音声理解、生成、および対話のための、大規模言語モデル(LLM)に基づく音声ツールキットであるWEST(WE Speech Toolkit)を紹介します。WESTの3つの主要な特徴は次のとおりです。1)完全にLLMベース: 大規模モデルから成熟したアーキテクチャ、エコシステム(例:Hugging Face)、および手法(例:シーケンスパッキング)を再利用することで、巨人の肩の上に立つ。2)フルスタック: 認識、合成、理解、対話、およびマルチモーダル機能などのタスクをサポートし、オープンソースモデルを組み込むための拡張性を持つ。3)シンプルで愚直: 誰でも利用できるシンプルで愚直な音声ツールキット。さらに、WESTは2種類のレシピ、モデル、および実験結果を提供します。1つ目は完全にオープンソースモデルとオープンソースデータに基づいており、ユーザーは本論文の実験を完全に再現でき、検証システムまたは最小限のシステムベースラインとして機能します。2つ目は大量のデータで訓練されており、優れた性能を提供するため、ユーザーはすぐに利用できます。WESTはhttps://github.com/wenet-e2e/west/で公開されています。

原文(英語)を表示

Title (EN): WEST: LLM based Speech Toolkit for Speech Understanding, Generation, and Interaction

arXiv:2509.19902v1 Announce Type: new
Abstract: In this paper, we present WEST(WE Speech Toolkit), a speech toolkit based on a large language model (LLM) for speech understanding, generation, and interaction. There are three key features of WEST: 1) Fully LLM-based: Standing on the shoulders of giants by reusing mature architectures, ecosystems (e.g., Hugging Face), and methods (e.g., sequence packing) from large models. 2) Full-stack: Supports tasks such as recognition, synthesis, understanding, dialogue, and multimodal capabilities, with extensibility to incorporate open-source models. 3) Simple and Stupid: A simple and stupid speech toolkit that everyone can Touch. In addition, WEST provides two types of recipes, models, and experimental results. The first is entirely based on open-source models and open-source data, allowing users to fully reproduce the experiments in this paper and serving as a verification system or minimal system baseline. The second is trained on massive data, offering superior performance so the user can directly apply it out of the box. WEST is publicly avilable at https://github.com/wenet-e2e/west/

Published: 2025-09-24 19:00 UTC


コメントする