バイアス・バリアンス分解:ブレグマンダイバージェンスの特権
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2501.18581v2発表タイプ:差し替え
概要:バイアス・分散分解は、機械学習モデルの汎化性能を理解するために広く用いられている。二乗誤差損失では直接的な分解が可能であるが、ゼロイチ損失や$L_1$損失などの他の損失関数では、バイアスと分散の和が期待損失に一致しないか、または意味のあるバイアスと分散の本質的な性質を欠いた定義に依存する。最近の研究では、クロスエントロピー損失を特殊なケースとして含む、より広範なブレグマンダイバージェンスのクラスに対して、明確な分解が可能であることが示されている。しかし、これらの分解に必要な十分条件は未解明の問題として残されている。
本論文では、穏やかな正則条件の下、識別不能則(二つの引数が同一である場合に限り損失がゼロとなる)を満たす連続で非負の損失関数を研究することにより、この問題に取り組む。我々は、いわゆる$g$-ブレグマンダイバージェンスが、明確なバイアス・分散分解を持つ唯一の損失関数であることを証明する。$g$-ブレグマンダイバージェンスは、可逆的な変数変換によって標準的なブレグマンダイバージェンスに変換できる。これは、そのような変数変換を除けば、マハラノビス距離の二乗が、明確なバイアス・分散分解を持つ唯一の対称損失関数であることを意味する。その結果、0-1損失や$L_1$損失などの一般的な指標は明確なバイアス・分散分解を許容しないことが明らかになり、これまでの試みが失敗した理由を説明する。また、損失関数に対する制約を緩和した場合の影響についても検討する。
原文(英語)を表示
Title (EN): Bias-variance decompositions: the exclusive privilege of Bregman divergences
arXiv:2501.18581v2 Announce Type: replace
Abstract: Bias-variance decompositions are widely used to understand the generalization performance of machine learning models. While the squared error loss permits a straightforward decomposition, other loss functions – such as zero-one loss or $L_1$ loss – either fail to sum bias and variance to the expected loss or rely on definitions that lack the essential properties of meaningful bias and variance. Recent research has shown that clean decompositions can be achieved for the broader class of Bregman divergences, with the cross-entropy loss as a special case. However, the necessary and sufficient conditions for these decompositions remain an open question.
In this paper, we address this question by studying continuous, nonnegative loss functions that satisfy the identity of indiscernibles (zero loss if and only if the two arguments are identical), under mild regularity conditions. We prove that so-called $g$-Bregman divergences are the only such loss functions that have a clean bias-variance decomposition. A $g$-Bregman divergence can be transformed into a standard Bregman divergence through an invertible change of variables. This makes the squared Mahalanobis distance, up to such a variable transformation, the only symmetric loss function with a clean bias-variance decomposition. Consequently, common metrics such as $0$-$1$ and $L_1$ losses cannot admit a clean bias-variance decomposition, explaining why previous attempts have failed. We also examine the impact of relaxing the restrictions on the loss functions and how this affects our results.
Published: 2025-09-24 19:00 UTC