ゲエズ語形態素解析器:形態論的複雑性と資源制約への対応
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20341v1発表タイプ:クロス
要旨:ゲエズ語は、独特のアルファベットで知られる古代セム語である。ティグリニャ語やアムハラ語など多くの言語の文字として用いられ、アクスム王国時代にエチオピアの文化的・宗教的発展に重要な役割を果たした。ゲエズ語は、エチオピアとエリトリアの典礼言語として現在も重要な役割を担っており、国家アイデンティティに関する多くの文書がゲエズ語で記録されている。これらの書かれた資料は、エチオピアとエリトリアの哲学、創造性、知識、文明を研究するための貴重な一次資料である。ゲエズ語は複雑な形態論的構造を持ち、豊富な屈折および派生形態論を有するが、注釈付き言語データ、コーパス、ラベル付きデータセット、語彙の不足により、これまで使用可能なNLPは開発・公開されていなかった。そこで、本稿では、言語の形態論的構造に従って、語根から表面形態素を生成する規則に基づくゲエズ語形態素合成器を提案する。全ての動詞形態論的構造を表す1,102個のサンプル動詞を用いてシステムをテスト・評価した。システムは97.4%の性能を達成し、ベースラインモデルを上回ったことから、今後の研究では言語の形態論的変化を考慮した包括的なシステムを構築すべきであることが示唆される。
キーワード:ゲエズ語、NLP、形態論、形態素合成器、規則ベース
原文(英語)を表示
Title (EN): Morphological Synthesizer for Ge’ez Language: Addressing Morphological Complexity and Resource Limitations
arXiv:2509.20341v1 Announce Type: cross
Abstract: Ge’ez is an ancient Semitic language renowned for its unique alphabet. It serves as the script for numerous languages, including Tigrinya and Amharic, and played a pivotal role in Ethiopia’s cultural and religious development during the Aksumite kingdom era. Ge’ez remains significant as a liturgical language in Ethiopia and Eritrea, with much of the national identity documentation recorded in Ge’ez. These written materials are invaluable primary sources for studying Ethiopian and Eritrean philosophy, creativity, knowledge, and civilization. Ge’ez has a complex morphological structure with rich inflectional and derivational morphology, and no usable NLP has been developed and published until now due to the scarcity of annotated linguistic data, corpora, labeled datasets, and lexicons. Therefore, we propose a rule-based Ge’ez morphological synthesizer to generate surface words from root words according to the morphological structures of the language. We used 1,102 sample verbs, representing all verb morphological structures, to test and evaluate the system. The system achieves a performance of 97.4%, outperforming the baseline model and suggesting that future work should build a comprehensive system considering morphological variations of the language.
Keywords: Ge’ez, NLP, morphology, morphological synthesizer, rule-based
Published: 2025-09-24 19:00 UTC