多言語モデルにおける方言NLPタスクでのトークン化と表現バイアス

多言語モデルにおける方言NLPタスクでのトークン化と表現バイアス

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20045v1発表タイプ:クロス

要旨:方言データは、人間にはわずかに見える言語的変異が、モデルの性能に大きな影響を与えることを特徴とする。この方言ギャップは、様々な要因(データサイズ、経済的・社会的要因など)に関連付けられてきたが、その影響は不一致であることが判明している。本研究では、事前学習済み多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報パリティ(IP)をより直接的にモデル性能に影響を与える要因と関連付けることで調査する。ラテン文字と非ラテン文字、リソースの豊富さ(多寡)を制御しつつ、方言分類、トピック分類、抽出型質問応答という3つのタスクにおいて、最先端のデコーダーのみのLLMとエンコーダーベースのモデルを比較する。分析の結果、TPは構文論的・形態論的な手がかりに依存するタスク(例:抽出型QA)の性能のより良い予測因子であるのに対し、IPは意味論的なタスク(例:トピック分類)の性能をより良く予測することが明らかになった。トークナイザーの挙動、語彙カバレッジ、定性的知見を含む補足的な分析により、LLMの言語サポートに関する主張は、スクリプトレベルまたはトークンレベルにおけるより深い不一致を隠している可能性があることが明らかになった。

原文(英語)を表示

Title (EN): Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks

arXiv:2509.20045v1 Announce Type: cross
Abstract: Dialectal data are characterized by linguistic variation that appears small to humans but has a significant impact on the performance of models. This dialect gap has been related to various factors (e.g., data size, economic and social factors) whose impact, however, turns out to be inconsistent. In this work, we investigate factors impacting the model performance more directly: we correlate Tokenization Parity (TP) and Information Parity (IP), as measures of representational biases in pre-trained multilingual models, with the downstream performance. We compare state-of-the-art decoder-only LLMs with encoder-based models across three tasks: dialect classification, topic classification, and extractive question answering, controlling for varying scripts (Latin vs. non-Latin) and resource availability (high vs. low). Our analysis reveals that TP is a better predictor of the performance on tasks reliant on syntactic and morphological cues (e.g., extractive QA), while IP better predicts performance in semantic tasks (e.g., topic classification). Complementary analyses, including tokenizer behavior, vocabulary coverage, and qualitative insights, reveal that the language support claims of LLMs often might mask deeper mismatches at the script or token level.

Published: 2025-09-24 19:00 UTC


コメントする