簡潔な類型論的言語表現の有効性

簡潔な類型論的言語表現の有効性

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20129v1 発表種別:新規

概要:URIEL+などの言語学的特徴データセットは、クロスリンガルな関係性のモデリングに有用であるが、特に低資源言語においては、その高次元性とスパース性により、距離指標の有効性に限界がある。本稿では、特徴選択とインピュテーションを組み合わせることでURIEL+の類型学的特徴空間を最適化するパイプラインを提案し、コンパクトかつ解釈可能な類型学的表現を生成する。これらの特徴部分集合について、言語距離の整合性と下流タスクにおいて評価を行い、言語類型論の縮小された表現が、より情報量の多い距離指標をもたらし、多言語NLPアプリケーションのパフォーマンスを向上させることを示す。

原文(英語)を表示

Title (EN): Less is More: The Effectiveness of Compact Typological Language Representations

arXiv:2509.20129v1 Announce Type: new
Abstract: Linguistic feature datasets such as URIEL+ are valuable for modelling cross-lingual relationships, but their high dimensionality and sparsity, especially for low-resource languages, limit the effectiveness of distance metrics. We propose a pipeline to optimize the URIEL+ typological feature space by combining feature selection and imputation, producing compact yet interpretable typological representations. We evaluate these feature subsets on linguistic distance alignment and downstream tasks, demonstrating that reduced-size representations of language typology can yield more informative distance metrics and improve performance in multilingual NLP applications.

Published: 2025-09-24 19:00 UTC


コメントする