读论文:Understanding Generalization Through Visualiations

本文探讨了过参数化模型中的泛化难题,通过实验揭示了flatness与泛化的关系,并指出高维优化中的偏好。文章还提出神经网络中存在badminima且优化器倾向于goodminima的现象,以及flatminima对泛化的重要性。

文章架构

1.从一些实验出发说明为什么generalization是令人困惑的以及过参数化是如何影响模型行为。

2.探讨最小值的flatness是如何与generalization相关建立直觉来理解为什么存在这种相关性。

3.探讨参数空间的高维如何使优化器偏向于泛化好的flat minima.

4.提出反事实的实验验证直觉。

一.背景

1.standard classification loss

L(\theta )=\frac{1}{\left | D_{t} \right |}\sum_{(x,y)\in D_{t} }-log p_{\theta}(x,y)

已知:过度参数化会导致泛化差。

实验:通过一个实验来说明模型拟合和泛化之间的区别,过度参数化的线性模型不能泛化,但过度参数化的神经网络泛化效果好。

提出猜想:

①NN中存在bad minima吗?

②bad minima远离初始化发生的参数空间?

③如果bad minima普遍存在,什么阻止了优化器发现这些bad minima?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值