CorIL:インド言語間並列コーパスと機械翻訳システムの充実に向けて

CorIL:インド言語間並列コーパスと機械翻訳システムの充実に向けて

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19941v1発表形式:クロス

要旨:インドの言語状況は世界で最も多様なものの1つであり、120以上の主要言語と約1600の追加言語からなり、インド憲法では22の言語が公用語として認められています。多言語ニューラル機械翻訳(NMT)の最近の進歩にもかかわらず、インドの言語に関する高品質の並列コーパスは、特に様々な分野にわたって、依然として不足しています。本論文では、これらの言語のうち11言語(英語、テルグ語、ヒンディー語、パンジャーブ語、オリヤー語、カシミール語、シンド語、ドグリー語、カンナダ語、ウルドゥー語、グジャラート語)を網羅する、大規模で高品質な注釈付き並列コーパスを導入します。これは合計772,000のバイテキスト文対から構成されています。このデータセットは注意深くキュレーションされ、政府、健康、一般の3つの主要なドメインに体系的に分類されており、ドメイン認識機械翻訳研究を可能にし、効果的なドメイン適応を促進します。CorILの有用性を示し、将来の研究のための強力なベンチマークを確立するために、IndicTrans2、NLLB、BhashaVerseなどの最先端のNMTモデルを微調整および評価します。分析の結果、重要なパフォーマンス傾向が明らかになり、モデルの能力を調査する上でコーパスの価値が強調されます。例えば、結果は、言語スクリプトに基づいて異なるパフォーマンスパターンを示しており、大規模多言語モデルはペルシア・アラビア文字(ウルドゥー語、シンド語)で優位性を示す一方で、他のモデルはインド文字で優れています。本論文では、ドメインごとのパフォーマンス分析の詳細を提供し、ドメインの感度とクロススクリプト転移学習に関する洞察を提供します。CorILを公開することで、インドの言語に関する高品質なトレーニングデータの可用性を大幅に向上させ、機械翻訳研究コミュニティにとって貴重なリソースを提供することを目指しています。

原文(英語)を表示

Title (EN): CorIL: Towards Enriching Indian Language to Indian Language Parallel Corpora and Machine Translation Systems

arXiv:2509.19941v1 Announce Type: cross
Abstract: India’s linguistic landscape is one of the most diverse in the world, comprising over 120 major languages and approximately 1,600 additional languages, with 22 officially recognized as scheduled languages in the Indian Constitution. Despite recent progress in multilingual neural machine translation (NMT), high-quality parallel corpora for Indian languages remain scarce, especially across varied domains. In this paper, we introduce a large-scale, high-quality annotated parallel corpus covering 11 of these languages : English, Telugu, Hindi, Punjabi, Odia, Kashmiri, Sindhi, Dogri, Kannada, Urdu, and Gujarati comprising a total of 772,000 bi-text sentence pairs. The dataset is carefully curated and systematically categorized into three key domains: Government, Health, and General, to enable domain-aware machine translation research and facilitate effective domain adaptation. To demonstrate the utility of CorIL and establish strong benchmarks for future research, we fine-tune and evaluate several state-of-the-art NMT models, including IndicTrans2, NLLB, and BhashaVerse. Our analysis reveals important performance trends and highlights the corpus’s value in probing model capabilities. For instance, the results show distinct performance patterns based on language script, with massively multilingual models showing an advantage on Perso-Arabic scripts (Urdu, Sindhi) while other models excel on Indic scripts. This paper provides a detailed domain-wise performance analysis, offering insights into domain sensitivity and cross-script transfer learning. By publicly releasing CorIL, we aim to significantly improve the availability of high-quality training data for Indian languages and provide a valuable resource for the machine translation research community.

Published: 2025-09-24 19:00 UTC


コメントする