分布自由な保証を伴う合成データを用いた統計的推論

分布自由な保証を伴う合成データを用いた統計的推論

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20345v1発表種別:クロス

概要:高度なAIモデルによって生成された、あるいは関連タスクからの補助データとして収集された高品質な合成データの急速な普及は、統計的推論にとって機会と課題の両方を提示する。本論文では、合成データと実データの組み合わせによりサンプル効率を安全に高めるために、あらゆる統計的推論手順を包含するGEneral Synthetic-Powered Inference (GESPI)フレームワークを紹介する。本フレームワークは、高品質な合成データを利用して統計的検出力(パワー)を高める一方、合成データの品質が低い場合は、実データのみを用いた標準的な推論方法に適応的にデフォルトする。本手法の誤差は、合成データに関する分布の仮定を一切行わずに、ユーザーが指定した境界値を下回り、合成データの品質が向上するにつれて減少する。この柔軟性により、コンフォーマル予測、リスク管理、仮説検定、多重検定手順などとのシームレスな統合が可能となり、基本的な推論方法を変更する必要はない。我々は、AlphaFoldタンパク質構造予測、および複雑な数学問題に関する大規模推論モデルの比較など、ラベル付きデータが限られた困難なタスクにおいて、本手法の利点を示す。

原文(英語)を表示

Title (EN): Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees

arXiv:2509.20345v1 Announce Type: cross
Abstract: The rapid proliferation of high-quality synthetic data — generated by advanced AI models or collected as auxiliary data from related tasks — presents both opportunities and challenges for statistical inference. This paper introduces a GEneral Synthetic-Powered Inference (GESPI) framework that wraps around any statistical inference procedure to safely enhance sample efficiency by combining synthetic and real data. Our framework leverages high-quality synthetic data to boost statistical power, yet adaptively defaults to the standard inference method using only real data when synthetic data is of low quality. The error of our method remains below a user-specified bound without any distributional assumptions on the synthetic data, and decreases as the quality of the synthetic data improves. This flexibility enables seamless integration with conformal prediction, risk control, hypothesis testing, and multiple testing procedures, all without modifying the base inference method. We demonstrate the benefits of our method on challenging tasks with limited labeled data, including AlphaFold protein structure prediction, and comparing large reasoning models on complex math problems.

Published: 2025-09-24 19:00 UTC


コメントする