高次元小規模表データにおけるアソシエーションルールの発見

高次元小規模表データにおけるアソシエーションルールの発見

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.20113v1発表論文:クロス

要約:アソシエーションルールマイニング(ARM)は、命題ルール形式でデータセットの特徴間のパターンを発見することを目的とし、ハイステークスの意思決定における知識発見と解釈可能な機械学習の両方を支援する。しかし、高次元設定では、ルールの爆発的な増加と計算オーバーヘッドにより、効果的な探索空間削減なしでは一般的なアルゴリズムアプローチが非実用的となり、その課題は下流のタスクにも波及する。Aerial+などのニューロシンボリック手法は、ARMにおけるルールの爆発的な増加に対処するために最近提案されている。これらはデータの高次元性を扱う一方で、特にデータが少ない状況での性能低下など、ニューラルネットワークの限界も引き継いでいる。

本論文は、高次元表形式データにおけるアソシエーションルールの発見に対し、3つの主要な貢献を行う。第一に、5つの現実世界のデータセットにおいて、Aerial+が最先端のアルゴリズムおよびニューロシンボリックベースラインと比べて1〜2桁高速にスケールすることを実証的に示す。第二に、バイオメディシン分野の遺伝子発現データなど、約18,000の特徴と50サンプルを持つ高次元、低データ設定におけるARMという新たな問題を提示する。第三に、表形式基礎モデルを用いたAerial+の2つのファインチューニングアプローチを提案する。提案手法は、5つの現実世界のデータセットにおいてルールの質を大幅に向上させることが示され、低データ、高次元シナリオにおける有効性が実証される。

原文(英語)を表示

Title (EN): Discovering Association Rules in High-Dimensional Small Tabular Data

arXiv:2509.20113v1 Announce Type: cross
Abstract: Association Rule Mining (ARM) aims to discover patterns between features in datasets in the form of propositional rules, supporting both knowledge discovery and interpretable machine learning in high-stakes decision-making. However, in high-dimensional settings, rule explosion and computational overhead render popular algorithmic approaches impractical without effective search space reduction, challenges that propagate to downstream tasks. Neurosymbolic methods, such as Aerial+, have recently been proposed to address the rule explosion in ARM. While they tackle the high dimensionality of the data, they also inherit limitations of neural networks, particularly reduced performance in low-data regimes.
This paper makes three key contributions to association rule discovery in high-dimensional tabular data. First, we empirically show that Aerial+ scales one to two orders of magnitude better than state-of-the-art algorithmic and neurosymbolic baselines across five real-world datasets. Second, we introduce the novel problem of ARM in high-dimensional, low-data settings, such as gene expression data from the biomedicine domain with around 18k features and 50 samples. Third, we propose two fine-tuning approaches to Aerial+ using tabular foundation models. Our proposed approaches are shown to significantly improve rule quality on five real-world datasets, demonstrating their effectiveness in low-data, high-dimensional scenarios.

Published: 2025-09-24 19:00 UTC


コメントする