深度学习-优化算法

本文深入探讨了梯度下降法与随机梯度下降法的区别,包括它们的计算效率、局部最小值处理及收敛特性。同时,对比了牛顿法与拟牛顿法在优化过程中的应用,详细讲解了两者在Hessian矩阵处理上的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

·1 梯度下降和随机梯度下降的区别?

https://www.nowcoder.com/discuss/61907

1-1  标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例的更新的。

1-2 标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算

1-3 标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权重更新经常使用比随机梯度下降大的步长,

1-4 如果标准误差曲面有多个局部最小值,随机的可能避免陷入这些局部极小值中。

1-5 梯度下降的缺点: 靠近极小值时收敛速度减慢;直线搜索时可能会产生一些问题;可能会之字形地下降。

1-6 随机并行梯度下降算法: 简称SPGD算法,作为一种无模型优化算法,比较适用于控制变量较多,受控系统比较复杂,无法建立准确数学模型的最优化控制过程。

https://wenda.so.com/q/1459284029724299?src=140

2 牛顿法和拟牛顿法区别?

https://www.zhihu.com/question/31988641

牛顿法:

这个式子是由将f(x) 在xt 处进行二阶泰勒展开然后令xt+1 处导数为零得到的,牛顿法的iteration complexity 是

但问题在于牛顿法每一步迭代所需的开销太大,即其每一步都需要求Hessian 矩阵并对其求逆,其中对矩阵求逆已经需要O(n3) 的时间复杂度了。

拟牛顿法:

拟牛顿法就是为了解决上面的运行时间太长的问题产生的·,有直接近似Hessian 矩阵的逆,具体·方法有很多,比较常用的BFGS 方法,如何判断Hessian矩阵近似地好不好呢? 一个常用的criterian 是gradient maching ,具体来说,设ft(x) 为f(x) 在Xt 的二次泰勒展开(其中Hessian 是用近似的Ht 代替,那么很自然的想法就是我让这两个函数在xt和xt-1 处一个导相等来约束Ht的近似的质量

为什么提出拟牛顿法: 牛顿法涉及海森矩阵,其逆矩阵求解麻烦。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值