一. Motivation
深度神经网络具有over-parameterized特征,并且很容易导致过拟合训练的数据,极端情况下甚至可以记住所有的训练数据,也就是在训练集上的准确率达到了100%,而且更糟糕的是训练数据中实际上存在错误标注或者矛盾标注的情况。
这篇论文发现损失函数的曲线的曲率可以作为模型对于数据记忆的一个度量,而且可以用于检测训练集中存在的错误/矛盾标注的数据。
二.Details and Contributions
(ps:我在看的时候发现论文里面也写到了模型的过度参数化对于测试集上的performance其实影响不是很大,为什么要专门在这里写这个是因为前段时间看的NYK也提到了这个问题,并且NTK为之提供了一个较为合理的解释)
2.1.研究方法:
2.1.0.baseline:为了对比方法证明可靠性,作者采用了FZ score作为baseline,这个FZ score是通过将部分datapoint移除然后训练网络,得到很多网络计算的这个分数,但是本论文的方法只需要训练一次。
2.1.1.度量曲率:
损失函数对于X输入的二阶导数,也就是Hessian矩阵。Hessian矩阵的定义如下: