WMT24++ベンチマークに、Rumantsch Grischun、Sursilvan、Sutsilvan、Surmiran、Puter、およびValladerを追加
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2509.03148v2発表タイプ:置換
要旨:スイスで話されているロマンシュ語は、機械翻訳評価のためのリソースが限られています。本論文では、地域を超えた品種であるRumantsch Grischunと、Sursilvan、Sutsilvan、Surmiran、Puter、Valladerの5つの地域品種を含む、ロマンシュ語6品種のベンチマークを紹介します。参照翻訳は、55以上の言語との並列性を保証するWMT24++ベンチマークに基づいて、人間翻訳者によって作成されました。既存の機械翻訳システムとLLMの自動評価により、ロマンシュ語からドイツ語への翻訳はすべての品種で比較的うまく処理されていることが示されましたが、ロマンシュ語への翻訳はまだ課題となっています。
原文(英語)を表示
Title (EN): Expanding the WMT24++ Benchmark with Rumantsch Grischun, Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader
arXiv:2509.03148v2 Announce Type: replace
Abstract: The Romansh language, spoken in Switzerland, has limited resources for machine translation evaluation. In this paper, we present a benchmark for six varieties of Romansh: Rumantsch Grischun, a supra-regional variety, and five regional varieties: Sursilvan, Sutsilvan, Surmiran, Puter, and Vallader. Our reference translations were created by human translators based on the WMT24++ benchmark, which ensures parallelism with more than 55 other languages. An automatic evaluation of existing MT systems and LLMs shows that translation out of Romansh into German is handled relatively well for all the varieties, but translation into Romansh is still challenging.
Published: 2025-09-24 19:00 UTC