OLaPh:最適言語音素化器

OLaPh:最適言語音素化器

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20086v1 発表種別:新規

概要:テキストを音素に変換する音素化は、テキスト読み上げにおける重要なステップです。従来の手法は規則に基づく変換と辞書検索を使用していましたが、より高度な手法では、ドメイン外の語彙に対する精度向上のため、前処理技術やニューラルネットワークが適用されています。しかし、すべてのシステムは固有名詞、借用語、略語、同音異義語で苦労しています。本研究は、大規模な辞書、複数の自然言語処理技術、複合語分解を確率的スコアリング関数と組み合わせたフレームワーク、OLaPh(Optimal Language Phonemizer)を提示します。ドイツ語と英語における評価は、困難なデータセットを含め、以前の手法よりも精度が向上していることを示しています。未解決のケースにさらに対処するために、OLaPh生成データで大型言語モデルを訓練し、さらに強力な汎化性能とパフォーマンスを実現しました。フレームワークとLLMを組み合わせることで、音素化の一貫性が向上し、将来の研究のための自由に利用可能なリソースを提供します。

原文(英語)を表示

Title (EN): OLaPh: Optimal Language Phonemizer

arXiv:2509.20086v1 Announce Type: new
Abstract: Phonemization, the conversion of text into phonemes, is a key step in text-to-speech. Traditional approaches use rule-based transformations and lexicon lookups, while more advanced methods apply preprocessing techniques or neural networks for improved accuracy on out-of-domain vocabulary. However, all systems struggle with names, loanwords, abbreviations, and homographs. This work presents OLaPh (Optimal Language Phonemizer), a framework that combines large lexica, multiple NLP techniques, and compound resolution with a probabilistic scoring function. Evaluations in German and English show improved accuracy over previous approaches, including on a challenging dataset. To further address unresolved cases, we train a large language model on OLaPh-generated data, which achieves even stronger generalization and performance. Together, the framework and LLM improve phonemization consistency and provide a freely available resource for future research.

Published: 2025-09-24 19:00 UTC


コメントする