非整列から整列へ:多言語大規模言語モデルのマルチウェイ並列コーパスを用いたスケーリング

非整列から整列へ:多言語大規模言語モデルのマルチウェイ並列コーパスを用いたスケーリング

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.14045v3 発表種別:差し替え

要約:大規模多言語データを用いた継続的事前学習と指示微調整は、低資源言語への大規模言語モデル(LLM)の拡張に有効であることが証明されています。しかし、そのようなデータの非整列性は、クロスリンガルな意味を効果的に捉える能力を制限します。対照的に、同一の内容が複数の言語で整列された多方向並列データは、より強力なクロスリンガルな一貫性を提供し、多言語性能向上のための可能性を大きく秘めています。本論文では、TED Talksに基づく大規模で高品質な多方向並列コーパス、TED2025を紹介します。このコーパスは113言語に及び、最大50言語が並列に整列しており、広範な多言語カバレッジを確保しています。このデータセットを用いて、継続的事前学習、指示微調整、および主要な影響要因の分析を含む、LLMを強化するための多方向並列データの活用に関するベストプラクティスを調査します。6つの多言語ベンチマークに関する実験により、多方向並列データで学習したモデルは、非整列多言語データで学習したモデルを一貫して上回ることが示されています。

原文(英語)を表示

Title (EN): From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora

arXiv:2505.14045v3 Announce Type: replace-cross
Abstract: Continued pretraining and instruction tuning on large-scale multilingual data have proven to be effective in scaling large language models (LLMs) to low-resource languages. However, the unaligned nature of such data limits its ability to effectively capture cross-lingual semantics. In contrast, multi-way parallel data, where identical content is aligned across multiple languages, provides stronger cross-lingual consistency and offers greater potential for improving multilingual performance. In this paper, we introduce a large-scale, high-quality multi-way parallel corpus, TED2025, based on TED Talks. The corpus spans 113 languages, with up to 50 languages aligned in parallel, ensuring extensive multilingual coverage. Using this dataset, we investigate best practices for leveraging multi-way parallel data to enhance LLMs, including strategies for continued pretraining, instruction tuning, and the analysis of key influencing factors. Experiments on six multilingual benchmarks show that models trained on multiway parallel data consistently outperform those trained on unaligned multilingual data.

Published: 2025-09-24 19:00 UTC


コメントする