マハナマ:文学エンティティ発見とリンクのための独自のテストベッド
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19844v1発表タイプ:新規
要旨:高い語彙変異、曖昧な参照、長距離依存関係により、文学作品におけるエンティティ解決は特に困難である。本稿では、形態素が豊かで資源の少ない言語であるサンスクリット語におけるエンドツーエンドのエンティティ発見とリンク(EDL)のための、初の広範囲なデータセット、Mahānamaを紹介する。世界最長の叙事詩であるマハーバーラタから派生したこのデータセットは、5,500を超える固有エンティティにマッピングされた109,000を超える固有名詞の言及を含んでおり、クロスリンガルリンクをサポートするために英語のナレッジベースと整合している。Mahānamaの複雑な物語構造と、広範な名称の変異と曖昧さは、解決システムに大きな課題を突きつける。我々の評価によると、現在の照応解決とエンティティリンクモデルは、テストセットのグローバルコンテキストで評価された場合、苦労する。これらの結果は、このような複雑な談話内でエンティティを解決する現在の方法の限界を浮き彫りにしている。したがって、Mahānamaは、特に文学分野におけるエンティティ解決を進歩させるための独自のベンチマークを提供する。
原文(英語)を表示
Title (EN): Mah\={a}n\={a}ma: A Unique Testbed for Literary Entity Discovery and Linking
arXiv:2509.19844v1 Announce Type: new
Abstract: High lexical variation, ambiguous references, and long-range dependencies make entity resolution in literary texts particularly challenging. We present Mah\={a}n\={a}ma, the first large-scale dataset for end-to-end Entity Discovery and Linking (EDL) in Sanskrit, a morphologically rich and under-resourced language. Derived from the Mah\={a}bh\={a}rata, the world’s longest epic, the dataset comprises over 109K named entity mentions mapped to 5.5K unique entities, and is aligned with an English knowledge base to support cross-lingual linking. The complex narrative structure of Mah\={a}n\={a}ma, coupled with extensive name variation and ambiguity, poses significant challenges to resolution systems. Our evaluation reveals that current coreference and entity linking models struggle when evaluated on the global context of the test set. These results highlight the limitations of current approaches in resolving entities within such complex discourse. Mah\=an\=ama thus provides a unique benchmark for advancing entity resolution, especially in literary domains.
Published: 2025-09-24 19:00 UTC