A Powerful Generative Model Using Random Weights for the Deep Image Representation笔记

研究表明不同优化方法会导致神经网络收敛到不同的局部极小值,并且这些极小值具有不同的形状特征,但在泛化精度上表现相当。这揭示了优化算法的选择对于最终模型的表现有着重要影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文确认了这些网络的局部极小值是不同的:

实验表明,不同的最优化方法会找到不同的极小值,即使在训练过程中非常靠后的阶段,从一种方法切换至另一种方法,也同样如此。此外,我们发现,不同最优化方法找到的极小值具有不同的形状,但这些极小值在最重要的度量——泛化精度上是相似的。

这表明,你对学习算法的选择“操纵”着算法如何得出最终结果。随机性是无所不在的,无论你如何规范自己的网络或者使用何种SGD变种算法,网络都会趋近于收敛(如果你设置了正确的随机条件)!SGD的什么性质使机器具备了学习的能力?是同分化关联的属性还是其他更一般的属性?如果我们可以让一个网络学会执行SGD,那么我们能够教会它执行这种未知的广义学习方法吗?



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值