Memorization Through the Lens of Curvature of Loss Function Around Samples

一. Motivation

  深度神经网络具有over-parameterized特征,并且很容易导致过拟合训练的数据,极端情况下甚至可以记住所有的训练数据,也就是在训练集上的准确率达到了100%,而且更糟糕的是训练数据中实际上存在错误标注或者矛盾标注的情况。

  这篇论文发现损失函数的曲线的曲率可以作为模型对于数据记忆的一个度量,而且可以用于检测训练集中存在的错误/矛盾标注的数据。

二.Details and Contributions

  (ps:我在看的时候发现论文里面也写到了模型的过度参数化对于测试集上的performance其实影响不是很大,为什么要专门在这里写这个是因为前段时间看的NYK也提到了这个问题,并且NTK为之提供了一个较为合理的解释)

  2.1.研究方法:

  2.1.0.baseline:为了对比方法证明可靠性,作者采用了FZ score作为baseline,这个FZ score是通过将部分datapoint移除然后训练网络,得到很多网络计算的这个分数,但是本论文的方法只需要训练一次。

  2.1.1.度量曲率:

  损失函数对于X输入的二阶导数,也就是Hessian矩阵。Hessian矩阵的定义如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值