電話遊びによる言語翻訳モデルの評価

電話遊びによる言語翻訳モデルの評価

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19611v1 発表種別:新規

概要:機械翻訳システムの品質を効率的かつ正確に評価する能力は、現在の言語モデルの有効性によって凌駕されており、長文翻訳や文学翻訳などのより困難なタスクにおけるモデルの更なる改善の可能性を制限している。本稿では、ソース言語とターゲット言語間の繰り返し翻訳によって、異なる文書の長さと適用分野にわたる翻訳評価のための教師なし学習データ生成手法を提案する。モデルローテーションと機械翻訳の両アプローチを用いて機械的に生成されたテキストで訓練された評価システムを評価し、2つの異なるタスク、(i)与えられた翻訳の品質を人間の参照翻訳と比較して採点すること、(ii)2つの翻訳のうちどちらが元のソース文書により生成的に近いのかを選択すること、において、一般的な翻訳評価システム(xCOMET)を上回る性能を示す。

原文(英語)を表示

Title (EN): Evaluating Language Translation Models by Playing Telephone

arXiv:2509.19611v1 Announce Type: new
Abstract: Our ability to efficiently and accurately evaluate the quality of machine translation systems has been outrun by the effectiveness of current language models–which limits the potential for further improving these models on more challenging tasks like long-form and literary translation. We propose an unsupervised method to generate training data for translation evaluation over different document lengths and application domains by repeated rounds of translation between source and target languages. We evaluate evaluation systems trained on texts mechanically generated using both model rotation and language translation approaches, demonstrating improved performance over a popular translation evaluation system (xCOMET) on two different tasks: (i) scoring the quality of a given translation against a human reference and (ii) selecting which of two translations is generationally closer to an original source document.

Published: 2025-09-24 19:00 UTC


コメントする