梯度下降法学习总结

最新推荐文章于 2024-05-27 20:03:59 发布

原创最新推荐文章于 2024-05-27 20:03:59 发布 · 1.7k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#凸优化 #梯度下降 #极值

本文深入探讨了梯度下降法在求解无约束优化问题中的应用，详细介绍了其核心概念、公式推导及特点，并指出其在实现简单、解决凸函数问题时的优势，同时也提到了求梯度耗时、局部最优等局限性。

梯度下降法学习总结

梯度下降法简介

梯度下降法是求解无约束优化问题的迭代算法，每一步要求解目标函数的梯度向量。
假设目标函数 $f(x)$ 在实数域上具有一阶连续偏导数，无约束最优化问题为：

m i n x \in R n f (x)

$min_{x\in R^n}f(x)$ 。设

x∗ $x^*$ 是目标函数极小值点。选取适当的初值

x(0) $x^{(0)}$ ，不断迭代，更新

x $x$ 的值，直到梯度收敛/目标函数值收敛/ｘ的值收敛。在迭代的每一步，以负梯度方向更新ｘ的值（因为函数值沿负梯度方向下降最快）。
设第ｋ此迭代值为

x(k) $x^{(k)}$ ，

f(x) $f(x)$ 在

x(k) $x^{(k)}$ 附近一阶泰勒展开：

f (x) = f (x (k)) + g T k (x - x (k))

$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})$
其中

gk $g_k$ 是f

f(x) $f(x)$ 在

x(k) $x^{(k)}$ 的梯度。
用以下方法求下一次迭代值：

f (x (k) + λ k * (- g k)) = m i n λ \geq 0 f (x (k) + λ * (- g k))

$f(x^{(k)}+\lambda_k*(-g_k))=min_{\lambda \ge 0}f(x^{(k)}+\lambda*(-g_k))$
求出使得

f(x(k)+λk∗(−gk)) $f(x^{(k)}+\lambda_k*(-g_k))$ 最小的

λk $\lambda_k$ 后，令

x (k + 1) = x (k) + λ k * (- g k)

$x^{(k+1)}=x^{(k)}+\lambda_k*(-g_k)$

梯度下降法特点

优点：

实现简单；
目标函数是凸函数时，能达到全局最优。

缺点：

求梯度比较费时，收敛速度一般；
只能解无约束的优化问题；
目标函数非凸时，陷入局部最优。

迭代算法

输入：目标函数 $f(x)$ ，梯度函数 $g(x)$ ，计算精度 $\varepsilon$ ；
输出： $f(x)$ 极小值点 $x^*$ 。

$k=0$ ；随机产生 $x^{(0)}\in R$ ；
计算 $x^{(k)}$ 处的函数值 $f(x^{(k)})$
计算 $x^{(k)}$ 处的梯度值 $g(x^{(k)})$ ；如果 $g(x^{(k)})<\varepsilon$ ，停止迭代，令 $x^*=x^{(k+1)}$ ；否则，求 $\lambda_k$ ，使得 $f (x (k) + λ k * (- g k)) = m i n λ \geq 0 f (x (k) + λ * (- g k))$ $f(x^{(k)}+\lambda_k*(-g_k))=min_{\lambda \ge 0}f(x^{(k)}+\lambda*(-g_k))$
$x^{(k+1)}=x^{(k)}+\lambda_k*(-g_k)$ ，计算 $x^{(k+1)}$ 处的函数值 $f(x^{(k+1)})$ ；如果 $||f(x^{(k+1)})-f(x^{(k)})||<\varepsilon$ 　或者　 $||x^{(k+1)}-x^{(k)}||<\varepsilon$ ，停止迭代；令 $x^*=x^{(k+1)}$
否则，令 $k=k+1$ ，转3

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。