梯度下降

最新推荐文章于 2024-04-25 20:44:15 发布

年少无为呀！

最新推荐文章于 2024-04-25 20:44:15 发布

阅读量242

点赞数 1

分类专栏：机器学习深度学习文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/qq_19409845/article/details/103956431

版权

机器学习同时被 2 个专栏收录

13 篇文章

订阅专栏

深度学习

7 篇文章

订阅专栏

文章目录

何为梯度？
梯度下降的三种方法

何为梯度？

梯度：在数学上，梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。
梯度是使得该函数取得最大值的方向，即梯度的方向是函数值增大的方向。

梯度下降的三种方法

那么梯度下降指的就是梯度的反方向。

假设目标函数为均方差损失函数
计算预测值和真实值之间的欧式距离。预测值和真实值越接近，两者的均方差就越小
均方差函数常用于线性回归(linear regression)，即函数拟合(function fitting)。

公式为:

$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(y^{(i)}-h_\theta(x^{(i)}))^2$ $优化目标是使得损失最小$
对 $\theta$ 求导如下：
$\frac{\partial J(\theta)}{\partial\theta_i}=-\frac{1}{m}\sum^{m}_{i=1}(y^{i}-h_{\theta}(x^{i}))x^i_j$

批量梯度下降法

$\theta'_j=\theta_j-\frac{\partial J(\theta)}{\partial\theta_i}=\theta_j+\frac{1}{m}\sum^{m}_{i=1}(y^{i}-h_{\theta}(x^{i}))x^i_j$
批量梯度下降容易得到最优解，但是由于每次都是考虑所有的样本，收敛速度很慢

小批量梯度下降法

$\theta'_j=\theta_j+\alpha\frac{1}{10}\sum_{k=i}^{i+9}(h_{\theta}((x^k)-y^k))x^k_j$
这里的批次大小为10，一般取36，64，128，512…，最常见的为32，64
$\alpha$ 是学习率，也就是每次优化更行的步长。