コア境界認識によるオーバーサンプリングとダウンサンプリング:データ品質主導型アプローチ

コア境界認識によるオーバーサンプリングとダウンサンプリング:データ品質主導型アプローチ

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19856v1発表。概要:機械学習モデルの有効性、特に不均衡分類タスクにおいては、決定境界付近の重要なインスタンスとデータ分布の中心に集中する冗長なサンプルを区別できないことがしばしば性能阻害要因となる。本論文では、これら2種類のデータを体系的に識別・区別する方法を提案する。複数のベンチマークデータセットを用いた広範な実験を通じて、境界データオーバーサンプリング法が96%のデータセットにおいてF1スコアを最大10%向上させることを示す一方、コア認識型削減法はデータセットを最大90%圧縮しながら精度を維持し、元のデータセットの10倍の効率性を達成する。不均衡分類以外にも、本手法は特に大規模言語モデル(LLM)訓練のような計算コストの高い分野における効率的なモデル訓練に広範な影響を与える。意思決定に関連する高品質なデータの優先順位付けにより、テキスト、マルチモーダル、自己教師あり学習シナリオへの拡張が可能となり、より高速な収束、汎化性能の向上、および大幅な計算コスト削減を実現する。本研究は、総当たり的な拡張に代わるインテリジェントなサンプリングによるデータ効率的な学習に関する将来の研究への道を拓き、次世代AIの発展を促進する。コードはPythonパッケージとしてhttps://pypi.org/project/adaptive-resampling/にて公開している。

原文(英語)を表示

Title (EN): Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach

arXiv:2509.19856v1 Announce Type: new
Abstract: The effectiveness of machine learning models, particularly in unbalanced classification tasks, is often hindered by the failure to differentiate between critical instances near the decision boundary and redundant samples concentrated in the core of the data distribution. In this paper, we propose a method to systematically identify and differentiate between these two types of data. Through extensive experiments on multiple benchmark datasets, we show that the boundary data oversampling method improves the F1 score by up to 10\% on 96\% of the datasets, whereas our core-aware reduction method compresses datasets up to 90\% while preserving their accuracy, making it 10 times more powerful than the original dataset. Beyond imbalanced classification, our method has broader implications for efficient model training, particularly in computationally expensive domains such as Large Language Model (LLM) training. By prioritizing high-quality, decision-relevant data, our approach can be extended to text, multimodal, and self-supervised learning scenarios, offering a pathway to faster convergence, improved generalization, and significant computational savings. This work paves the way for future research in data-efficient learning, where intelligent sampling replaces brute-force expansion, driving the next generation of AI advancements. Our code is available as a Python package at https://pypi.org/project/adaptive-resampling/ .

Published: 2025-09-24 19:00 UTC


コメントする