EnAnchored-X2X:多対多翻訳のための英語中心最適化
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19770v1(発表種別:新規)
概要:大規模言語モデル(LLM)は英語中心の言語ペアにおいて高い機械翻訳能力を示しているが、英語以外の直接翻訳(x2x翻訳)では性能が劣る。本研究は、モデルの確立された英語→x言語(en2x)翻訳能力を活用する合成データ生成フレームワークにより、この限界に対処する。英語の並列コーパスを全方向データセットに拡張し、英語を基準とした品質評価指標を開発することで、高品質なx2x翻訳訓練データの効率的な収集を可能にした。選好に基づく最適化と組み合わせることで、広く使用されているLLMにおいて72のx2x方向で顕著な性能向上を達成し、en2x性能の向上にも一般化できることを示した。本研究の結果は、英語中心の強みを戦略的に活用することで、LLMにおける包括的な多言語翻訳能力を強化できることを示している。コード、データセット、モデルチェックポイントはhttps://github.com/NJUNLP/EAXで公開する。
原文(英語)を表示
Title (EN): EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation
arXiv:2509.19770v1 Announce Type: new
Abstract: Large language models (LLMs) have demonstrated strong machine translation capabilities for English-centric language pairs but underperform in direct non-English (x2x) translation. This work addresses this limitation through a synthetic data generation framework that leverages models’ established English-to-x (en2x) capabilities. By extending English parallel corpora into omnidirectional datasets and developing an English-referenced quality evaluation proxy, we enable effective collection of high-quality x2x training data. Combined with preference-based optimization, our method achieves significant improvement across 72 x2x directions for widely used LLMs, while generalizing to enhance en2x performance. The results demonstrate that strategic exploitation of English-centric strengths can bootstrap comprehensive multilingual translation capabilities in LLMs. We release codes, datasets, and model checkpoints at https://github.com/NJUNLP/EAX
Published: 2025-09-24 19:00 UTC