スケーラブルなNystr\”om基底カーネル二標本検定と順列法

スケーラブルなNystr\”om基底カーネル二標本検定と順列法

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2502.13570v3 発表種別:差し替え
要約:2つのデータセットが同一の分布から抽出されたものであるかどうかを判定する2標本仮説検定は、統計学および機械学習において基礎的な問題であり、幅広い科学的応用を持つ。ノンパラメトリック検定の文脈において、最大平均差異(MMD)はその柔軟性と強力な理論的基礎から検定統計量として人気を得ている。しかしながら、大規模なシナリオにおけるその利用は、高い計算コストによって妨げられている。本研究では、MMDのニストロム近似を用いて、統計的保証を維持しつつ計算効率の高い実用的な検定アルゴリズムを設計する。我々の主な結果は、MMDに関して十分に分離された分布に対する、提案された検定の検出力に関する有限標本の上限である。導出された分離レートは、この設定における既知のミニマックス最適レートと一致する。我々は、現実的な科学データへの適用性を強調した一連の数値実験によって、我々の知見を裏付ける。

原文(英語)を表示

Title (EN): A Scalable Nystr\”om-Based Kernel Two-Sample Test with Permutations

arXiv:2502.13570v3 Announce Type: replace-cross
Abstract: Two-sample hypothesis testing-determining whether two sets of data are drawn from the same distribution-is a fundamental problem in statistics and machine learning with broad scientific applications. In the context of nonparametric testing, maximum mean discrepancy (MMD) has gained popularity as a test statistic due to its flexibility and strong theoretical foundations. However, its use in large-scale scenarios is plagued by high computational costs. In this work, we use a Nystr\”om approximation of the MMD to design a computationally efficient and practical testing algorithm while preserving statistical guarantees. Our main result is a finite-sample bound on the power of the proposed test for distributions that are sufficiently separated with respect to the MMD. The derived separation rate matches the known minimax optimal rate in this setting. We support our findings with a series of numerical experiments, emphasizing applicability to realistic scientific data.

Published: 2025-09-24 19:00 UTC


コメントする