多言語先行ファクトチェック済み主張検出のための巨大言語モデル

多言語先行ファクトチェック済み主張検出のための巨大言語モデル

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2503.02737v3 発表種別:差し替え

要約:現代における虚偽情報の蔓延を受け、事実確認を行う人間は、既に他の国や言語で検証済みの主張を重複して検証するという課題に直面することが多い。虚偽情報は言語の壁を越えるため、言語を超えて以前に事実確認された主張を自動的に検出する能力は、ますます重要な課題となっている。本論文は、多言語対応の以前に事実確認された主張検出における大規模言語モデル(LLM)の包括的な評価を初めて行ったものである。20の言語にわたる7つのLLMを、一言語設定とクロスリンガル設定の両方で評価した。その結果、LLMはリソースの豊富な言語では良好な性能を示す一方で、リソースの少ない言語では苦労することが明らかになった。さらに、元のテキストを英語に翻訳することが、リソースの少ない言語にとって有益であることが判明した。これらの知見は、多言語対応の以前に事実確認された主張検出におけるLLMの可能性を示唆しており、LLMのこの有望な応用に関する更なる研究の基礎となる。

原文(英語)を表示

Title (EN): Large Language Models for Multilingual Previously Fact-Checked Claim Detection

arXiv:2503.02737v3 Announce Type: replace
Abstract: In our era of widespread false information, human fact-checkers often face the challenge of duplicating efforts when verifying claims that may have already been addressed in other countries or languages. As false information transcends linguistic boundaries, the ability to automatically detect previously fact-checked claims across languages has become an increasingly important task. This paper presents the first comprehensive evaluation of large language models (LLMs) for multilingual previously fact-checked claim detection. We assess seven LLMs across 20 languages in both monolingual and cross-lingual settings. Our results show that while LLMs perform well for high-resource languages, they struggle with low-resource languages. Moreover, translating original texts into English proved to be beneficial for low-resource languages. These findings highlight the potential of LLMs for multilingual previously fact-checked claim detection and provide a foundation for further research on this promising application of LLMs.

Published: 2025-09-24 19:00 UTC


コメントする