規模が重要:包括的な意味理解のための優れた類似性指標
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19323v1発表形式:クロス
要約:高次元ベクトル比較はNLPにおける基本的なタスクであるが、無界でベクトルノルムに敏感な生のドット積と、大きさ情報を完全に無視するコサイン類似度という2つの基準に支配されている。本稿では、パラメータフリーで大きさも考慮した新しい類似度指標のクラスを提案し、厳密に評価することで、両方の基準に挑戦する。ベクトル大きさおよび整合性をより原理的な方法で統合するように設計された、Overlap Similarity(OS)とHyperbolic Tangent Similarity(HTS)という2つの関数を導入する。その知見が堅牢かつ汎化可能であることを保証するために、all-MiniLM-L6-v2、all-mpnet-base-v2、paraphrase-mpnet-base-v2、BAAI/bge-large-en-v1.5という4つの最先端の文埋め込みモデルを用いて、STS-B、SICK、Quora、PAWSを含む8つの標準的なNLPベンチマークの多様なスイートで包括的な評価を行った。統計的有意性を検定するためにWilcoxon符号順位検定を用いた結果、明確である。言い換えと推論を必要とするタスク(全体的な意味理解を必要とするタスク)において、OSとHTSの両方とも、基となる埋め込みモデルに関係なく、生のドット積とコサイン類似度よりも平均二乗誤差において統計的に有意な改善を示した。重要なことに、これらの指標の利点の具体的な領域を明確にした。言い換えと推論のような全体論的な意味理解を必要とするタスクでは、大きさも考慮した指標は統計的に優れた代替手段を提供する。この有意な改善は、高度にニュアンスのある構成的意味論をテストするように設計されたベンチマーク(SICK、STS-B)では観察されず、構成的なテキストを表すことの課題を、将来の研究のための明確で重要な方向性として特定した。
原文(英語)を表示
Title (EN): Magnitude Matters: a Superior Class of Similarity Metrics for Holistic Semantic Understanding
arXiv:2509.19323v1 Announce Type: cross
Abstract: Vector comparison in high dimensions is a fundamental task in NLP, yet it is dominated by two baselines: the raw dot product, which is unbounded and sensitive to vector norms, and the cosine similarity, which discards magnitude information entirely. This paper challenges both standards by proposing and rigorously evaluating a new class of parameter-free, magnitude-aware similarity metrics. I introduce two such functions, Overlap Similarity (OS) and Hyperbolic Tangent Similarity (HTS), designed to integrate vector magnitude and alignment in a more principled manner. To ensure that my findings are robust and generalizable, I conducted a comprehensive evaluation using four state-of-the-art sentence embedding models (all-MiniLM-L6-v2, all-mpnet-base-v2, paraphrase-mpnet-base-v2, and BAAI/bge-large-en-v1.5) across a diverse suite of eight standard NLP benchmarks, including STS-B, SICK, Quora, and PAWS. Using the Wilcoxon signed-rank test for statistical significance, my results are definitive: on the tasks requiring holistic semantic understanding (paraphrase and inference), both OS and HTS provide a statistically significant improvement in Mean Squared Error over both the raw dot product and cosine similarity, regardless of the underlying embedding model.Crucially, my findings delineate the specific domain of advantage for these metrics: for tasks requiring holistic semantic understanding like paraphrase and inference, my magnitude-aware metrics offer a statistically superior alternative. This significant improvement was not observed on benchmarks designed to test highly nuanced compositional semantics (SICK, STS-B), identifying the challenge of representing compositional text as a distinct and important direction for future work.
Published: 2025-09-24 19:00 UTC