梯度下降(Gradient Descent)原理和Python实现

最新推荐文章于 2024-10-02 08:03:46 发布

馒头饺子

最新推荐文章于 2024-10-02 08:03:46 发布

阅读量2.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Languedoc_Roussillon/article/details/90609216

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了梯度下降的基本原理，包括梯度的概念，以及梯度下降和梯度上升的区别。在梯度下降中，通过不断调整参数以减小损失函数，寻找局部最小值。而梯度上升则用于寻找局部最大值。文章还提到了梯度下降在逻辑回归和线性回归中的应用场景，并给出了Python实现的链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降

梯度

对多元函数的参数 $\alpha$ 求偏导数，把各个偏导数结合在一起，就是梯度。对于多元函数 $f=(x_1,x_2,x_3......x_n)$ 的梯度是一个长度为 $n$ 的向量，向量中第 $k$ 个值就是其对函数 $f$ 的偏导数。
$\Delta f(x_1,x_2,x_3......x_n)=((\frac{\alpha f}{\alpha x_1}),(\frac{\alpha f}{\alpha x_2}).....(\frac{\alpha f}{\alpha x_n}))$

梯度下降和梯度上升

梯度下降

假定线性回归的假设函数为 $h_{\theta}(x_1,x_2.....x_n)=\theta_0+\theta_1x_1+.....+\theta_nx_n$ ，则对应的损失函数为： $J(\theta_0,\theta_1.....\theta_n)=\frac{1}{2m}\Sigma_{i=0}^m(h_{\theta}(x_1,x_2.....x_n)-y_i)^2$
初始化步长 $\alpha$ ，算法终止距离 $\varepsilon$ ，以及 $\theta_1,\theta_2....\theta_n$
过程：

确定当前损失函数的梯度，对于 $\theta_i$ 为： $\frac{\alpha}{\alpha_j}J(\theta_1,\theta_2.....\theta_n)$
用步长乘以当前损失函数得到下降距离
确定所有的 $\theta_i$ 梯度下降是否都小于 $\varepsilon$ ，如果是则退出，否则进入步骤4
更新所有的 $\theta$ ，对于 $\theta_i$ ： $\theta_i=\theta_i-\alpha\frac{\alpha}{\alpha_i}J(\theta_0,\theta_1....\theta_n)$ ，更新完毕后继续步骤1

梯度上升

和梯度下降一样，只是在更新 $\theta$ 的时候是加不是减

使用场景

梯度下降是求局部极小值，而梯度上升是求局部最大值

logistic的目标函数: $l=\Sigma_{i=1}^my_i*log(p_i)+(1 - y_i)*log(1-p_i)$ ,因为是优化目标出现的概率，所以越大越好，需要用梯度上升。

线性回归的cost函数为： $\frac{1}{2}\Sigma_{i=1}^m(h_i-y_i)^2$ 对于cost函数我们需要越小越好，所以用逻辑下降。

Python实现：

github地址：https://github.com/mantoujiaozi/Learning/blob/master/Andrew Wu/batch-gradient-descent.py

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。