OOD&LogitNorm&label noise

文章提出LogitNorm,一种解决神经网络过度自信问题的训练方法,尤其在开放世界中处理超出分布范围的输入。LogitNorm通过控制对数范数,提高模型区分内部和外部分布数据的能力,从而提升OOD检测性能和置信度校准。同时,文章讨论了在噪声标签学习中如何通过表示正则化减少模型的记忆效应,提出解耦DNN并利用结构信息限制函数空间的新框架。

在现实世界中,机器学习模型的安全部署需要检测并处理超出分布范围的输入。然而,神经网络普遍存在过度自信的问题,即对于内部和外部分布的输入都会产生异常高的置信度。本文提出了一种解决方法——对数归一化(LogitNorm),通过在训练中强制对数的常向量范数,从而缓解这个问题。我们的方法是基于分析发现,训练过程中对数的范数不断增加,导致输出过度自信。因此,LogitNorm的关键思想是在网络优化过程中分离输出范数的影响。经过LogitNorm训练的神经网络能够产生高度可区分的置信度分数,区分内部和外部分布的数据。广泛的实验表明,LogitNorm具有卓越的性能,可以将常见基准测试中的平均FPR95降低高达42.30%。

现代神经网络在开放世界中部署时,经常遇到超出分布范围(OOD)的输入,即来自网络在训练中未曾接触过的不同分布的样本,在测试时不应以高置信度进行预测。一个可靠的分类器不仅应该准确地分类已知的内部分布(ID)样本,还应将任何OOD输入标识为“未知”。这就引出了OOD检测的重要性,它确定输入是ID还是OOD,并允许模型在部署中采取预防措施。

一种朴素的解决方案是使用最大softmax概率(MSP)来进行OOD检测(Hendrycks&Gimpel,2016)。操作假设是OOD数据应该触发相对较低的softmax置信度,而不是ID数据。尽管直观,但现实情况显示出一个非平凡的困境。特别是,深度神经网络可以轻松地产生过度自信的预测,即使输入与训练数据相距甚远(Nguyen等人,2015)。这对使用softmax置信度进行OOD检测产生了重大疑问。事实上,许多先前的工作转而定义替代的OOD评分函数(Liang等人,2018; Lee等人,2018; Liu等人,2020; Sastry&Oore,2020; Sun等人,2021; Huang等人,2021; Sun等人,2022)。然而,迄今为止,社区对过度自信问题的根本原因和缓解仍有有限的理解。

  1. 我们引入了LogitNorm——一种简单有效的交叉熵损失替代方法,它将对数的范数影响与训练过程分离。我们展示了LogitNorm可以有效地推广到不同的网络架构,并提高不同的后续OOD检测方法的性能。
  2. 我们进行了广泛的评估,表明LogitNo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值