媒体はメッセージではない:線形概念消去による文書埋め込みの混同行解消

媒体はメッセージではない:線形概念消去による文書埋め込みの混同行解消

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2507.01234v3 発表種別:差し替え

概要:テキストシーケンス間の埋め込みベースの類似度指標は、最も重視する内容次元だけでなく、テキストのソースや言語などの偽属性によっても影響を受ける可能性があります。これらの文書コンファウンダーは多くのアプリケーション、特に異なるコーパスからのテキストをプールする必要があるアプリケーションに問題を引き起こします。本論文は、エンコーダ表現から観測されたコンファウンダーに関する情報を削除するデバイアスアルゴリズムが、最小限の計算コストでこれらのバイアスを大幅に削減することを示します。文書類似度とクラスタリング指標は、評価したすべての埋め込みバリアントとタスクにおいて向上し、多くの場合劇的に向上します。興味深いことに、分布外のベンチマークのパフォーマンスには影響がなく、埋め込みがそれ以外で劣化していないことを示しています。

原文(英語)を表示

Title (EN): The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure

arXiv:2507.01234v3 Announce Type: replace
Abstract: Embedding-based similarity metrics between text sequences can be influenced not just by the content dimensions we most care about, but can also be biased by spurious attributes like the text’s source or language. These document confounders cause problems for many applications, but especially those that need to pool texts from different corpora. This paper shows that a debiasing algorithm that removes information about observed confounders from the encoder representations substantially reduces these biases at a minimal computational cost. Document similarity and clustering metrics improve across every embedding variant and task we evaluate — often dramatically. Interestingly, performance on out-of-distribution benchmarks is not impacted, indicating that the embeddings are not otherwise degraded.

Published: 2025-09-24 19:00 UTC


コメントする