深度学习（三）-梯度下降法是个什么东东

大Huoyo

已于 2022-03-22 15:31:36 修改

阅读量1.8k

点赞数

分类专栏：深度学习文章标签：深度学习算法人工智能

于 2022-03-14 21:35:52 首次发布

本文链接：https://blog.youkuaiyun.com/qq_21120275/article/details/123489017

版权

11 篇文章

订阅专栏

本文详细介绍了梯度下降法在机器学习中的作用，作为解决复杂优化问题的有效工具。讨论了其原理，包括初始化、学习率设定和不同类型的下降方式，如批量、随机和小批量梯度下降。同时，文章强调了学习率选择和参数优化对模型性能的影响，并通过实例展示了梯度下降法如何逐步找到目标函数的最小值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

梯度下降法是机器学习常用的优化算法之一，是一种用来寻求目标函数最小值时的自变量值得算法。
虽然在线性回归和逻辑回归一文中已经提到过该算法，但是考虑到该算法的重要性，故而单独提取出来进行说明。

因循旧例，还是从案例说起：
假设我们需要求解 $z=x^2+y^2$ 的最小值，按照常规的思路是

（1）分别求出 $x$ 和 $y$ 的偏导数

$\frac{\mathrm{d}z}{\mathrm{d}x}=2x$
$\frac{\mathrm{d}z}{\mathrm{d}y}=2y$

（2）分别令 $x$ 和 $y$ 的偏导数为0

$2 x = 0$ $2 y = 0$

（3）联立方程组，得 $x = 0$ ， $y = 0$
（4）代入函数得到最小值为0

机器学习的求解大多是一个求函数取得最小值（有时候只能求极小值）时候的参数的过程，而上述的过程已经可以实现，为什么还要整一个梯度下降法呢？

因为机器学习学习重的自变量并不是只有一两个那么简单，成千上万甚至是亿都有可能，这个时候我们还联立成千上万个方程组求解是不现实的，所以就采用了梯度下降法！

虽然梯度下降法求出的结果并不是那么精确，但机器学习本身就是一个概率性的问题，再者，这不是无能为力嘛（不要逼我说出来）！

关于求解最小值，梯度下降法的做法是：

（1）初始化目标的函数自变量值，一般是一个非0且足够小的值

（2）计算出每个自变量的的偏导数

（3）设置合适的学习率 $\eta$ （下文再解释）

（4）循环更新自变量参数，更新方式为：

$x=x-\eta*\frac{\mathrm{d}z}{\mathrm{d}x}=x-\eta*2x$

$y=y-\eta*2y$

看起来有点抽象，我们根据上面的目标函数来实践一下：

（1）假设我们随机设置了 $x$ 和 $y$ 的初始值为
$x = 3$ ， $y = 4$ ，

（2）分别求偏导数（看上面）

（3）设置学习率 $\eta=0.1$

（4）循环更新自变量参数

	x	y	x计算方式	z
第一次	3	4	随机初始化
第二次	2.4	3.2	3-0.123=2.4； 4-0.124=3.2	2.42.4+3.23.2=16
第三次	1.92	2.56	2.4-0.122.4=1.92； 3.2-0.123.2=2.56	1.921.92+2.562.56=10.24
第四次	1.536	2.048	1.92-0.121.92=1.536; 2.56-0.122.56=2.048	…
第n次	…	…	…	…