機械翻訳の評価とメタ評価における、正確性と流暢性のトレードオフ:「二兎追う者は一兎をも得ず」か?
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20287v1発表タイプ: クロス
要旨: 本研究は、機械翻訳における正確性と流暢性間のトレードオフを調査する。評価レベルにおけるこのトレードオフの深刻さを示し、一般的な評価指標がそのどこに位置するかを分析する。基本的に、現在の指標は一般的に正確性に偏っており、そのスコアは流暢性よりも翻訳の正確性とより強く相関している。さらに重要なことに、このトレードオフはメタ評価レベルでも持続し、標準的なWMTメタ評価は流暢性指向の指標よりも正確性指向の指標を優先する傾向があることを発見した。このバイアスは、メタ評価データセットに含まれるシステムの構成に部分的に起因することを示す。このバイアスを制御するために、メタ評価において翻訳システムを合成する手法を提案する。これらの知見は、メタ評価におけるこのトレードオフの理解とその指標ランキングへの影響の重要性を強調する。
原文(英語)を表示
Title (EN): Feeding Two Birds or Favoring One? Adequacy-Fluency Tradeoffs in Evaluation and Meta-Evaluation of Machine Translation
arXiv:2509.20287v1 Announce Type: cross
Abstract: We investigate the tradeoff between adequacy and fluency in machine translation. We show the severity of this tradeoff at the evaluation level and analyze where popular metrics fall within it. Essentially, current metrics generally lean toward adequacy, meaning that their scores correlate more strongly with the adequacy of translations than with fluency. More importantly, we find that this tradeoff also persists at the meta-evaluation level, and that the standard WMT meta-evaluation favors adequacy-oriented metrics over fluency-oriented ones. We show that this bias is partially attributed to the composition of the systems included in the meta-evaluation datasets. To control this bias, we propose a method that synthesizes translation systems in meta-evaluation. Our findings highlight the importance of understanding this tradeoff in meta-evaluation and its impact on metric rankings.
Published: 2025-09-24 19:00 UTC