神经网络不确定性综述(Part I)——A survey of uncertainty in deep neural networks

原创

已于 2025-03-21 20:24:49 修改 · 5k 阅读

52 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络

于 2024-05-22 11:08:50 首次发布

0. 概述

随着神经网络技术在现实世界中的应用不断广泛，神经网络预测置信度变得越来越重要，尤其是在医学图像分析与自动驾驶等高风险领域。然而，最基本的神经网络并不包含置信度估计的过程，并且通常面临着over-confidence或者under-confidence的问题。针对此问题，研究人员开始关注于量化神经网络预测中存在的uncertainty，由此定义了不同类型、不同来源的uncertainty以及量化uncertainty的技术。

本篇文章尝试对神经网络中的不确定性估计方法进行总结和归纳，将uncertainty的来源分为reducible model uncertainty以及irreducible data uncertainty两种类别，介绍了基于确定性神经网络(deterministic neural networks)、贝叶斯神经网络(Bayesian neural networks)、神经网络集成(ensemble of neural networks)以及测试时数据增强(test-time data augmentation)等不确定性建模方法。

1. Introduction

深度神经网络(Deep Neural Networks, DNN)在mission- and safety-critical real world applications上存在局限，具体表现为：

DNN inference model的表达能力(expressiveness)和透明度(transparency)不足，导致它们产生的预测结果难以信服——可解释性差；
DNN无法区分in-domain与out-of-domain的样本，对domain shifts十分敏感——泛化性差；
无法提供可靠的不确定性估计，并且趋向于产生over-confident predictions——过度自信；
对adversarial attacks的敏感性导致DNN很容易遭到攻击而被破坏——系统稳定性差。

造成以上现象出现的主要原因有两种，一种是数据本身引入的不确定性，即data uncertainty；另一种是神经网络学到的知识不足所造成的不确定性，即model uncertainty。为了克服DNN的这些局限性，uncertainty estimation就至关重要。有了不确定性估计，人类专家就可以通过查看模型预测结果所对应的不确定性，忽略那些不确定性很高的结果。

不确定性估计不仅对于高风险领域的安全决策有帮助，在数据源高度不均匀(inhomogeneous)以及标注数据较少的领域也十分关键，并且对于以不确定性作为学习技术关键部分的领域例如active learning及reinforcement learning同样至关重要。

近年来，研究者在DNN的不确定性估计方面展现了与日俱增的兴趣。估计预测不确定性(predictive uncertainty)最常用的方法是分别对由模型引起的不确定性(认知不确定性/模型不确定性，epistemic or model uncertainty)和由数据引起的不确定性(任意不确定性/数据不确定性，aleatoric or data uncertainty)进行建模。其中模型不确定性是可以降低的，而数据不确定性则无法降低。

目前，对于这两种不确定性最常见的建模方法包括：

Bayesian inference
Ensemble approaches
Test-time augmentation
Single deterministic networks containing explicit components to represent the model and the data uncertainty.

然而，在高风险领域仅仅对predictive uncertainty进行估计还远远不够，还需要进一步确认估计得到的uncertainty是否可靠。为此，研究人员研究了DNN的校准特性(the degree of reliability，可靠性程度)，并提出了重新校准(re-calibration)方法，以获得可靠的(well-calibrated，校准良好的)不确定性估计。

下面几个章节将具体介绍不确定性的来源、类型、DNN中不确定性估计的方法、评估不确定性估计质量的度量方法、calibrate DNN的方法、被频繁使用的evaluation datasets与benchmarks、不确定估计在现实世界的应用以及该领域现有的挑战与未来展望。