事前学習済み深層モデルは、ラベル不足下におけるLearning-to-RankにおいてGBDTを凌駕する
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2308.00177v5 発表種別: replace-cross
概要:表形式データにおいて、現在の深層学習(DL)モデルは勾配ブースティング決定木(GBDT)と同等の性能を示すに留まり、外れ値データに対しては大幅に劣ることが、多くの文献で示されている。しかしながら、これらの研究はしばしば理想化された問題設定を対象としており、現実世界の複雑性を捉えきれていない可能性がある。本研究では、DLモデルがGBDTを凌駕する自然な表形式データ設定を特定する:ラベル不足下における表形式学習ランキング(LTR)。検索やレコメンドを含む表形式LTRアプリケーションは、しばしば大量の未ラベルデータと少量のラベルデータを持つ。我々は、DLランカーが教師なし事前学習を利用してこの未ラベルデータを利用できることを示す。公開データセットと独自データセットの両方における広範な実験を通して、事前学習済みDLランカーがランキング指標においてGBDTランカーを一貫して上回り、場合によっては最大38%もの改善を示すことを示す。全体的な性能と外れ値データに対する性能の両方において同様の結果が得られた。
原文(英語)を表示
Title (EN): Pretrained deep models outperform GBDTs in Learning-To-Rank under label scarcity
arXiv:2308.00177v5 Announce Type: replace-cross
Abstract: On tabular data, a significant body of literature has shown that current deep learning (DL) models perform at best similarly to Gradient Boosted Decision Trees (GBDTs), while significantly underperforming them on outlier data. However, these works often study idealized problem settings which may fail to capture complexities of real-world scenarios. We identify a natural tabular data setting where DL models can outperform GBDTs: tabular Learning-to-Rank (LTR) under label scarcity. Tabular LTR applications, including search and recommendation, often have an abundance of unlabeled data, and scarce labeled data. We show that DL rankers can utilize unsupervised pretraining to exploit this unlabeled data. In extensive experiments over both public and proprietary datasets, we show that pretrained DL rankers consistently outperform GBDT rankers on ranking metrics — sometimes by as much as 38% — both overall and on outliers.
Published: 2025-09-24 19:00 UTC