クロス頻度転移学習と基礎予測モデルの現実的な評価
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19465v1発表タイプ:クロス
要旨:クロス周波数転移学習(CFTL)は、大規模時系列データセットをキュレーションし、基礎予測モデル(FFM)を事前学習するための一般的な枠組みとして台頭しています。CFTLは有望性を示していますが、現在のベンチマーク手法は、その性能を正確に評価するには不十分です。この欠点は、小規模な評価データセットへの過剰な依存、要約統計量を計算する際のサンプルサイズの不適切な処理、最適ではない統計モデルの報告、および事前学習とテストデータセット間の無視できない重複リスクの考慮不足など、多くの要因に起因します。これらの限界に対処するために、広く採用されているニューラル予測ネットワークの統一された再実装を行い、CFTLの設定に適合させました。テストデータの漏洩を防ぐために、独自の合成データのみを使用して事前学習を行い、15個の大規模で多様な公開予測コンテストデータセットで評価しました。経験的分析によると、統計モデルの精度は頻繁に過小報告されています。特に、統計モデルとそのアンサンブルは、データセット全体でsCRPSで8.2%以上、MASEで20%以上、既存のFFMを常に上回ることが確認されました。しかし、合成データセットの事前学習によってFFMの精度が7%向上することもわかりました。
原文(英語)を表示
Title (EN): A Realistic Evaluation of Cross-Frequency Transfer Learning and Foundation Forecasting Models
arXiv:2509.19465v1 Announce Type: cross
Abstract: Cross-frequency transfer learning (CFTL) has emerged as a popular framework for curating large-scale time series datasets to pre-train foundation forecasting models (FFMs). Although CFTL has shown promise, current benchmarking practices fall short of accurately assessing its performance. This shortcoming stems from many factors: an over-reliance on small-scale evaluation datasets; inadequate treatment of sample size when computing summary statistics; reporting of suboptimal statistical models; and failing to account for non-negligible risks of overlap between pre-training and test datasets. To address these limitations, we introduce a unified reimplementation of widely-adopted neural forecasting networks, adapting them for the CFTL setup; we pre-train only on proprietary and synthetic data, being careful to prevent test leakage; and we evaluate on 15 large, diverse public forecast competition datasets. Our empirical analysis reveals that statistical models’ accuracy is frequently underreported. Notably, we confirm that statistical models and their ensembles consistently outperform existing FFMs by more than 8.2% in sCRPS, and by more than 20% MASE, across datasets. However, we also find that synthetic dataset pre-training does improve the accuracy of a FFM by 7% percent.
Published: 2025-09-24 19:00 UTC