確率的実行時検証、評価、および画像深層学習システムのリスク評価

確率的実行時検証、評価、および画像深層学習システムのリスク評価

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19419v1発表種別:クロス

概要:深層ニューラルネットワークはベンチマークにおいて優れた性能を達成する一方で、入力データの僅かな、しばしば知覚できないずれ(分布シフト)に対して敏感であるため、現実世界の展開においてはしばしば性能が低下する。これらのシフトは実際的なシナリオでは一般的であるが、評価において考慮されることは稀であり、性能指標が過大評価される結果となる。このギャップに対処するため、深層学習システムの検証、評価、およびリスク評価のための新規な方法論を提案する。本アプローチは、分布外検出器の出力を用いてその確率を推定することで、実行時の分布シフトの発生を明示的にモデル化する。これらの推定値をネットワークの正しさの条件付き確率と組み合わせ、それらを二分木に構成する。この木を辿ることで、ネットワーク精度の信頼性が高く正確な推定値を計算できる。5つの異なるデータセットを用いて、分布シフトの頻度が異なる展開条件をシミュレーションし、本アプローチを評価する。本アプローチは従来の評価を常に上回り、精度推定誤差は通常0.01~0.1の範囲である。さらに、医療セグメンテーションベンチマークにおいて、ツリーノードにコストを関連付けることでリスク評価に本アプローチの可能性を示し、費用便益分析と価値判断に役立てる。最終的に、本アプローチは、より正確な性能推定と実行可能なリスク評価を提供することで、特に安全性が重要なアプリケーションにおいて、深層学習システムの信頼性と信頼性を向上させるための堅牢な枠組みを提供する。

原文(英語)を表示

Title (EN): Probabilistic Runtime Verification, Evaluation and Risk Assessment of Visual Deep Learning Systems

arXiv:2509.19419v1 Announce Type: cross
Abstract: Despite achieving excellent performance on benchmarks, deep neural networks often underperform in real-world deployment due to sensitivity to minor, often imperceptible shifts in input data, known as distributional shifts. These shifts are common in practical scenarios but are rarely accounted for during evaluation, leading to inflated performance metrics. To address this gap, we propose a novel methodology for the verification, evaluation, and risk assessment of deep learning systems. Our approach explicitly models the incidence of distributional shifts at runtime by estimating their probability from outputs of out-of-distribution detectors. We combine these estimates with conditional probabilities of network correctness, structuring them in a binary tree. By traversing this tree, we can compute credible and precise estimates of network accuracy. We assess our approach on five different datasets, with which we simulate deployment conditions characterized by differing frequencies of distributional shift. Our approach consistently outperforms conventional evaluation, with accuracy estimation errors typically ranging between 0.01 and 0.1. We further showcase the potential of our approach on a medical segmentation benchmark, wherein we apply our methods towards risk assessment by associating costs with tree nodes, informing cost-benefit analyses and value-judgments. Ultimately, our approach offers a robust framework for improving the reliability and trustworthiness of deep learning systems, particularly in safety-critical applications, by providing more accurate performance estimates and actionable risk assessments.

Published: 2025-09-24 19:00 UTC


コメントする