SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION-论文精读
锐度感知最小化 (SAM)paper-link 是一种简单而有效的技术,用于提高深度学习模型在看不见的数据样本上的泛化能力。
摘要
在当今过度参数化的模型中,训练损失的值很少能保证模型的泛化能力。事实上,仅优化训练损失值(如通常所做的那样)很容易导致次优的模型质量。
受先前将损失景观的几何形状与泛化能力相关联的工作的启发,我们引入了一种新颖而有效的方法,该方法通过同时最小化损失值和损失锐度来提高模型泛化能力。特别是,我们的方法,锐度感知最小化 (SAM),寻求位于具有均匀低损失的邻域中的参数;这种公式导致了一个可以在其上有效地进行梯度下降的最小-最大优化问题。我们展示了实验结果,表明 SAM 在各种基准数据集(例如 CIFAR-{10, 100}、ImageNet、微调任务)和模型上提高了模型的泛化能力,为其中一些模型带来了新的最先进性能。此外,我们发现 SAM 本身就具有与专门针对噪声标签学习而设计的最先进程序相当的对标签噪声的鲁棒性。
代码: https://github.com/goo