文章架构
1.从一些实验出发说明为什么generalization是令人困惑的以及过参数化是如何影响模型行为。
2.探讨最小值的flatness是如何与generalization相关并建立直觉来理解为什么存在这种相关性。
3.探讨参数空间的高维如何使优化器偏向于泛化好的flat minima.
4.提出反事实的实验验证直觉。
一.背景
1.standard classification loss
已知:过度参数化会导致泛化差。
实验:通过一个实验来说明模型拟合和泛化之间的区别,过度参数化的线性模型不能泛化,但过度参数化的神经网络泛化效果好。
提出猜想:
①NN中存在bad minima吗?
②bad minima远离初始化发生的参数空间?
③如果bad minima普遍存在,什么阻止了优化器发现这些bad minima?

本文探讨了过参数化模型中的泛化难题,通过实验揭示了flatness与泛化的关系,并指出高维优化中的偏好。文章还提出神经网络中存在badminima且优化器倾向于goodminima的现象,以及flatminima对泛化的重要性。
最低0.47元/天 解锁文章

1343

被折叠的 条评论
为什么被折叠?



