低資源英語-ティグリニャ機械翻訳:多言語モデル、カスタムトークナイザー、および精緻な評価ベンチマークの活用

低資源英語-ティグリニャ機械翻訳:多言語モデル、カスタムトークナイザー、および精緻な評価ベンチマークの活用

なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。

ソースを読む(export.arxiv.org)

arXiv:2509.20209v1発表タイプ: クロス

概要:神経機械翻訳(NMT)の進歩にもかかわらず、ティグリニャ語のような低資源言語は、限られたコーパス、不適切なトークン化戦略、標準化された評価ベンチマークの不足など、持続的な課題のために、依然として十分なサービスを受けていません。本論文では、形態素が豊富な低資源言語の翻訳品質を向上させるために、多言語事前学習モデルを用いた転移学習手法を調査します。言語固有のトークン化、情報に基づいた埋め込み初期化、およびドメイン適応型ファインチューニングを統合した改良された手法を提案します。厳格な評価を可能にするため、多様なドメインを網羅する高品質な人間整合型英語-ティグリニャ語評価データセットを作成しました。実験結果により、カスタムトークナイザーを使用した転移学習がゼロショットベースラインを大幅に上回り、BLEU、chrF、および定性的な人的評価によって検証された改善が示されました。設定全体で統計的有意性を確保するために、ボンフェローニ補正を適用しました。エラー分析により、主要な限界が明らかになり、標的を絞った改良が示唆されます。本研究は、表現力の低い言語のパフォーマンスギャップを埋める上で、言語的に意識したモデリングと再現可能なベンチマークの重要性を強調しています。リソースはhttps://github.com/hailaykidu/MachineT_TigEngおよびhttps://huggingface.co/Hailay/MachineT_TigEngで入手可能です。

原文(英語)を表示

Title (EN): Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks

arXiv:2509.20209v1 Announce Type: cross
Abstract: Despite advances in Neural Machine Translation (NMT), low-resource languages like Tigrinya remain underserved due to persistent challenges, including limited corpora, inadequate tokenization strategies, and the lack of standardized evaluation benchmarks. This paper investigates transfer learning techniques using multilingual pretrained models to enhance translation quality for morphologically rich, low-resource languages. We propose a refined approach that integrates language-specific tokenization, informed embedding initialization, and domain-adaptive fine-tuning. To enable rigorous assessment, we construct a high-quality, human-aligned English-Tigrinya evaluation dataset covering diverse domains. Experimental results demonstrate that transfer learning with a custom tokenizer substantially outperforms zero-shot baselines, with gains validated by BLEU, chrF, and qualitative human evaluation. Bonferroni correction is applied to ensure statistical significance across configurations. Error analysis reveals key limitations and informs targeted refinements. This study underscores the importance of linguistically aware modeling and reproducible benchmarks in bridging the performance gap for underrepresented languages. Resources are available at https://github.com/hailaykidu/MachineT_TigEng
and https://huggingface.co/Hailay/MachineT_TigEng

Published: 2025-09-24 19:00 UTC


コメントする