论文重新审视了深度神经网络中的不确定性估计技术,并整合了一套技术以增强其可靠性。论文的研究表明,多种技术(包括模型正则化、分类器改造和优化策略)的综合应用显着提高了图像分类任务中不确定性预测的准确性
来源:晓飞的算法工程笔记 公众号
论文: SURE: SUrvey REcipes for building reliable and robust deep networks

Introduction
深度神经网络 (DNNs) 已成为结构化数据预测任务中强大且适应性高的工具,但准确评估其预测的可靠性仍然是一个巨大的挑战。在医疗诊断、机器人、自动驾驶和地球观测系统等关键安全领域,过度自信的预测的决策可能会导致严重的后果。因此,确保基于DNN的人工智能系统的鲁棒性至关重要。

解决深度学习中的过度自信问题一直是重大研究工作的焦点,但目前很多方法的一个关键限制是测试场景有限,通常仅限于单个预定义任务(例如故障预测或分布外检测(OOD))的基准数据集。这些方法在涉及更复杂的现实情况时(如数据损坏、标签噪声或长尾类分布等),其有效性仍很大程度上尚未得到充分探索。而且通过实验表明,没有一种方法能够在不同的场景中表现一致。为此,论文提出了一个有效解决所有这些挑战的统一模型。
在论文追求增强不确定性估计的过程中,论文首先检查几种现有方法的综合影响,从而发现一种可以显着改进的综合方法。根据这些方法在模型训练过程中的功能对进行分类:
- 正则化和分类器:利用
RegMixup正则化、正确性排名损失 (CRL) 和余弦相似性分类器 (CSC) 等技术,这有助于增加具有挑战性的样本的熵。 - 优化策略:按照
FMFP的建议结合了锐度感知最小化 (SAM) 和随机权重平均 (SWA),确保模型能够收敛到更平坦的最小值。
这些不同技术的协同整合最终形成了论文的新颖方法SURE,该方法利用了每个单独组件的优势,产生了更加稳健和可靠的模型。
在评估SURE时,论文首先关注错误预测(failure prediction),这是评估不确定性估计的关键任务。结果表明,SURE始终优于部署单独技术的模型。这种卓越的性能在CIFAR10、CIFAR-100、Tiny-ImageNet等各种数据集以及ResNet、VGG、DenseNet、WideResNet和DeiT等各种模型架构中都很明显。值得注意的是,SURE甚至超越了OpenMix,这是一种利用额外OOD数据的方法。通过将SURE直接应用到现实场景中,无需或只进行很少的特定于任务的调整,进一步见证了在为模型带来鲁棒性方面的有效性。具体来说,现实世界的挑战包括CIFAR10-C中的数据损坏、Animal-10N和Food-101N中的标签噪声以及CIFARLT中的类分布倾斜。在这些背景下,SURE取得的结果要么优于最新的方法,要么与最新的方法相当。SURE在Food-101N上达到了 88.0% 的令人印象深刻的准确率,显着超过了之前最先进的方法Jigsaw-ViT,该方法通过使用额外的预训练数据达到了 86.7% 的准确率,这证明了SURE在处理复杂的现实数据挑战方面的卓越能力。
本文的主要贡献总结如下:
- 实验证明现有方法在应对各种现实挑战时并不总能表现出色,需要更可靠、更稳健的方法来处理现实世界数据的复杂性。
- 提出用于鲁棒的不确定性估计的新颖方法
SURE,结合模型正则化、分类器和优化策略等多种技术所实现的协同效应。在SURE方法下训练的模型在故障预测方面始终比在各种数据集和模型架构中部署单独技术的模型取得更好的性能。 - 直接应用于现实场景时,
SURE始终表现出至少与最先进的方法相当的性能。
Methods

如图 2 所示,SURE旨在通过两个方面训练可靠且鲁棒的DNN:i)增加难样本的熵; ii) 在优化过程中强制寻找平坦极值(flat minima)。
定义 { ( x i , y i ) } i = 1 N \{(\mathbf{x}_{i},\mathbf{y}_{i})\}_{i=1}^{N} {(xi,yi)}i=1N 表示数据集,其中 x i \mathbf{x}_{i} xi 是输入图像, y i \mathbf{y}_{i} yi 是其标签, N N N 是样本数。
SURE中增加难样本熵的方法由三个部分组成:
- 增加
RegMixup正则化 L m i x \mathcal{L}_{mix} Lmix,通过数据增强添加难样本。 - 增加正确性排名损失 L c r l \mathcal{L}_{crl} Lcrl,通过将实例的置信度与正确预测次数比例进行排序对齐来正则化类概率。
- 在分类的交叉熵损失 L c e {\mathcal{L}}_{ce} Lce

本文探讨了如何通过集成模型正则化、分类器改造和优化策略来改进深度神经网络的不确定性估计,提出了SURE方法。实验表明,SURE在各种数据集和模型架构中表现出色,特别是在处理现实世界挑战如数据损坏、噪声和类分布倾斜时,显示出显著的鲁棒性。
最低0.47元/天 解锁文章
892

被折叠的 条评论
为什么被折叠?



