SwissGPC v1.0 ― スイスドイツ語ポッドキャストコーパス

SwissGPC v1.0 ― スイスドイツ語ポッドキャストコーパス

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19866v1 発表種別:新規

概要:本稿では、音声認識(ASR)、音声合成(TTS)、方言識別、および関連分野の研究を支援するために開発された、初の規模の中規模から大規模の自然発話スイスドイツ語コーパスであるSwissGPC v1.0を発表する。本データセットは、Schweizer Radio und FernsehenおよびYouTubeでホストされているトークショーとポッドキャストへのリンクから構成されており、約5400時間の生音声データを含む。セグメンテーションと弱いアノテーションの後、約5000時間の音声データが保持され、7つの主要なスイスドイツ語方言地域と標準ドイツ語を網羅している。自動アノテーションパイプラインを含むコーパス構築方法論について説明し、方言分布、トークン数、セグメンテーション特性に関する統計情報を提供する。主に制御された音声の特徴を持つ既存のスイスドイツ語音声コーパスとは異なり、このコーパスは自然な自発的な会話を捉えているため、現実世界の音声アプリケーションにとって貴重なリソースとなる。

原文(英語)を表示

Title (EN): SwissGPC v1.0 — The Swiss German Podcasts Corpus

arXiv:2509.19866v1 Announce Type: new
Abstract: We present SwissGPC v1.0, the first mid-to-large-scale corpus of spontaneous Swiss German speech, developed to support research in ASR, TTS, dialect identification, and related fields. The dataset consists of links to talk shows and podcasts hosted on Schweizer Radio und Fernsehen and YouTube, which contain approximately 5400 hours of raw audio. After segmentation and weak annotation, nearly 5000 hours of speech were retained, covering the seven major Swiss German dialect regions alongside Standard German. We describe the corpus construction methodology, including an automated annotation pipeline, and provide statistics on dialect distribution, token counts, and segmentation characteristics. Unlike existing Swiss German speech corpora, which primarily feature controlled speech, this corpus captures natural, spontaneous conversations, making it a valuable resource for real-world speech applications.

Published: 2025-09-24 19:00 UTC


コメントする