インタラクティブ機械学習による強力かつ有効な部分集団選択:Chiseling

インタラクティブ機械学習による強力かつ有効な部分集団選択:Chiseling

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19490v1発表形式:クロス

概要:回帰分析と因果推論において、制御されたサブグループ選択は、平均応答または治療効果が所定の閾値を超えるサブグループ(共変量空間の部分集合として定義される)を推論的保証とともに特定することを目指す。例えば、臨床試験においては、平均治療効果が正であるサブグループを見つけることが重要となる。しかし、既存の手法は、推論的保証が不足しているか、サブグループの探索を大きく制限しているか、またはナイーブなデータ分割によって効率性を犠牲にしている。本研究では、分析者が反復的に縮小することで候補サブグループを対話的に洗練し、検証できる新規フレームワークである「chiselling」を提案する。唯一の制約は、縮小方向が現在のサブグループ外の点のみに依存することであるが、それ以外の点では、分析者はあらゆる事前情報または機械学習アルゴリズムを活用できる。この柔軟性にもかかわらず、chisellingは、最小限の仮定の下で発見されたサブグループがヌル(例えば、平均治療効果が非正)である確率を制御する。例えば、ランダム化実験では、この推論的妥当性の保証は、有界モーメント条件の下でのみ成立する。様々なシミュレーションデータセットと実際の調査実験に適用した結果、chisellingは、推論的保証を持つ既存の手法よりも大幅に優れたサブグループを特定する。

原文(英語)を表示

Title (EN): Chiseling: Powerful and Valid Subgroup Selection via Interactive Machine Learning

arXiv:2509.19490v1 Announce Type: cross
Abstract: In regression and causal inference, controlled subgroup selection aims to identify, with inferential guarantees, a subgroup (defined as a subset of the covariate space) on which the average response or treatment effect is above a given threshold. E.g., in a clinical trial, it may be of interest to find a subgroup with a positive average treatment effect. However, existing methods either lack inferential guarantees, heavily restrict the search for the subgroup, or sacrifice efficiency by naive data splitting. We propose a novel framework called chiseling that allows the analyst to interactively refine and test a candidate subgroup by iteratively shrinking it. The sole restriction is that the shrinkage direction only depends on the points outside the current subgroup, but otherwise the analyst may leverage any prior information or machine learning algorithm. Despite this flexibility, chiseling controls the probability that the discovered subgroup is null (e.g., has a non-positive average treatment effect) under minimal assumptions: for example, in randomized experiments, this inferential validity guarantee holds under only bounded moment conditions. When applied to a variety of simulated datasets and a real survey experiment, chiseling identifies substantially better subgroups than existing methods with inferential guarantees.

Published: 2025-09-24 19:00 UTC


コメントする