TABFAIRGDT:自己回帰決定木を用いた高速かつ公平な表形式データジェネレーター
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19927v1発表形式:クロス
概要:機械学習における公平性の確保は、モデルが訓練データからバイアスを継承することが多いため、依然として大きな課題である。生成モデルは、ユーティリティを維持しながらデータレベルでバイアスを軽減するための有望なアプローチとして最近台頭してきた。しかし、多くのモデルは深層アーキテクチャに依存しており、単純なモデルが表形式データに対して非常に効果的であるという証拠があるにもかかわらず、そうである。本研究では、自己回帰決定木を用いた公平な合成表形式データ生成のための新規手法であるTABFAIRGDTを提案する。公平性を確保するために、バイアスを軽減しながら予測性能を維持するように決定木の出力を調整するソフトリーフリサンプリング技術を提案する。本手法はノンパラメトリックであり、基礎となるデータ分布に関する仮定に頼ることなく、混合特徴タイプの複雑な関係を効果的に捉える。ベンチマーク公平性データセットでTABFAIRGDTを評価し、最先端(SOTA)の深層生成モデルを凌駕し、下流タスクにおける公平性とユーティリティのトレードオフを向上させ、より高い合成データ品質を達成することを示す。さらに、本手法は軽量で非常に効率的であり、CPUに対応しており、データの前処理を必要としない。注目すべきは、TABFAIRGDTは様々なデータセットサイズにおいて最速のSOTAベースラインと比較して平均72%の速度向上を実現し、標準的なCPU上でわずか1秒で中規模データセット(10特徴、10Kサンプル)に対する公平な合成データを生成できるため、現実世界の公平性に配慮したアプリケーションに最適なソリューションである。
原文(英語)を表示
Title (EN): TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees
arXiv:2509.19927v1 Announce Type: cross
Abstract: Ensuring fairness in machine learning remains a significant challenge, as models often inherit biases from their training data. Generative models have recently emerged as a promising approach to mitigate bias at the data level while preserving utility. However, many rely on deep architectures, despite evidence that simpler models can be highly effective for tabular data. In this work, we introduce TABFAIRGDT, a novel method for generating fair synthetic tabular data using autoregressive decision trees. To enforce fairness, we propose a soft leaf resampling technique that adjusts decision tree outputs to reduce bias while preserving predictive performance. Our approach is non-parametric, effectively capturing complex relationships between mixed feature types, without relying on assumptions about the underlying data distributions. We evaluate TABFAIRGDT on benchmark fairness datasets and demonstrate that it outperforms state-of-the-art (SOTA) deep generative models, achieving better fairness-utility trade-off for downstream tasks, as well as higher synthetic data quality. Moreover, our method is lightweight, highly efficient, and CPU-compatible, requiring no data pre-processing. Remarkably, TABFAIRGDT achieves a 72% average speedup over the fastest SOTA baseline across various dataset sizes, and can generate fair synthetic data for medium-sized datasets (10 features, 10K samples) in just one second on a standard CPU, making it an ideal solution for real-world fairness-sensitive applications.
Published: 2025-09-24 19:00 UTC