梯度下降法和牛顿法优化原理

最新推荐文章于 2025-07-11 11:10:49 发布

原创最新推荐文章于 2025-07-11 11:10:49 发布 · 5.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #优化 #深度学习 #梯度下降法 #牛顿迭代法

深度学习专栏收录该内容

72 篇文章

订阅专栏

本文解析了机器学习中两种常用的优化方法——梯度下降法与牛顿法。通过对比这两种方法的原理及实现过程，阐述了它们在损失函数优化中的应用。

我们假设任何规律都是一个函数，机器学习要做的就是设计模型来拟合这个函数，如何使自己的模型更能贴近这个函数就是我今天要讲的优化问题。
首先假设我们的模型为函数f(x),给定一个输入x,得到预测结果f(x),而真实的结果为y，我们优化的目的就是使f(x)和y贴近。一般我们会定义一个损失函数，来衡量这个差距。此时我们优化的目标就是使损失函数最小。当然优化损失函数的方法有很多，我今天就列举两个使用迭代的优化方法。
本文参考文章

梯度下降法

先列出泰勒公式的一阶展开式(一维变量)

f (x) = f (x 0) + f' (x 0) (x - x 0)

$f(x)=f(x_0)+f'(x_0) (x-x_0)$
或者

f (x + Δ x) = f (x) + f' (x) Δ x

$f(x+\Delta x)=f(x)+f'(x) \Delta x$
首先我们每次迭代，修改weight的目的是使损失一次比一次低，用数学式表达就是

m i n (f (W + Δ W)

$min(f(W+\Delta W)$
（W是权重weight向量(N*1的向量）
利用上述的泰勒公式一阶展开(向量形式)

f (W + Δ W) = f (W) + \nabla f (W) T Δ W

$f(W+\Delta W)=f(W)+\nabla f(W)^T \Delta W$
若要使

f(W+ΔW) $f(W+\Delta W )$ 最小，则要使

∇f(W)TΔW $\nabla f(W)^T \Delta W$ 最小
由柯西不等式得

| \nabla f (W) T Δ W | \leq | | \nabla f (W | | * | | Δ W | |

$|\nabla f(W)^T \Delta W| \le ||\nabla f(W||*|| \Delta W||$
当且仅当

f′(W)=ΔW $f'(W) = \Delta W$
所以当

∇f(W)=ΔW $\nabla f(W) = \Delta W$ 时，

∇f(W)TΔW $\nabla f(W)^T \Delta W$ 最小
也即下一次迭代

W′=W+ΔW=W−∇f(W) $W' = W+\Delta W = W -\nabla f(W)$

牛顿法

先列出泰勒公式的二阶展开式

f (x) = f (x 0) + f' (x 0) (x - x 0) + 1 2 f'' (x 0) (x - x 0) 2

$f(x)=f(x_0)+f'(x_0) (x-x_0)+\frac {1}{2}f''(x_0) (x-x_0)^2$
或者

f (x + Δ x) = f (x) + f' (x) Δ x + 1 2 f'' (x) Δ x 2

$f(x+\Delta x)=f(x)+f'(x) \Delta x+\frac {1}{2}f''(x)\Delta x^2$
首先我们每次迭代，修改weight的目的是使损失一次比一次低，用数学式表达就是

m i n (f (W + Δ W)

$min(f(W+\Delta W)$
（W是权重weight向量(N*1的向量）
利用上述的泰勒公式一阶展开

f (W + Δ W) = f (W) + \nabla f (W) T Δ W + 1 2 Δ W T \nabla 2 f (W) T Δ W

$f(W+\Delta W)=f(W)+\nabla f(W)^T \Delta W+\frac {1}{2}\Delta W^T\nabla ^2f(W)^T\Delta W$
若要使

f(W+ΔW) $f(W+\Delta W )$ 最小，则要使

∇f(W)TΔW+12ΔWT∇2f(W)TΔW $\nabla f(W)^T \Delta W+\frac {1}{2}\Delta W^T\nabla ^2f(W)^T\Delta W$ 最小
令：

g (Δ W) = \nabla f (W) T Δ W + 1 2 Δ W T \nabla 2 f (W) T Δ W

$g(\Delta W) =\nabla f(W)^T \Delta W+\frac {1}{2}\Delta W^T\nabla ^2f(W)^T\Delta W$

\nabla g (Δ W) = \nabla f (W) + \nabla 2 f (W) Δ W

$\nabla g(\Delta W) =\nabla f(W)+\nabla ^2f(W)\Delta W$

∇g(ΔW)=0 $\nabla g(\Delta W)=0$ 时，

∇g(ΔW) $\nabla g(\Delta W)$ 取得极值点，

Δ W = - \nabla 2 f (W) - 1 \nabla f (W)

$\Delta W=-\nabla^2 {f(W)^-}^1\nabla f(W)$

也即下一次迭代 $W' = W+\Delta W = W -\nabla^2 {f(W)^-}^1\nabla f(W)$

总结

由上面可知，梯度下降法只需要损失函数满足一阶可导就行，而牛顿法需要二阶导数，无论条件还是计算难度都提高了，但是由于牛顿法是泰勒展开式的二阶形式，所以是二阶收敛的，而梯度下降法是一阶收敛的，相对于牛顿法收敛速度较慢些。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。