梯度下降法

最新推荐文章于 2024-10-31 22:03:01 发布

原创最新推荐文章于 2024-10-31 22:03:01 发布 · 453 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#梯度下降法

DeepLearning.ai笔记专栏收录该内容

3 篇文章

订阅专栏

在了解了Logistic回归模型、损失函数、成本函数之后，可以利用梯度下降法，来训练或学习训练集上的参数 $w$ 和 $b$ 。

Logistic 回归算法：

$\hat{y}^{(i)}=\sigma(w^Tx^{(i)}+b),其中\sigma(z^{(i)})=\dfrac{1}{1+e^{-x^{(i)}}}$ ，其中 $x^{(i)}$ 为第i个训练样本

成本函数：

$J(w,b)=\frac {1}{m}\sum_{i=1}^{m}L(\hat y^{(i)},y^{(i)})=-\frac {1}{m}\sum_{i=1}^{m}y^{(i)}[log(\hat y^{(i)})+(1-y^{(i)})log(1-\hat y^{(i)}))]$

成本函数衡量了参数 $w$ 和 $b$ 在训练集上的效果。要习得合适的参数 $w$ 和 $b$ ，我们需要找到使得成本函数 $J(w,b)$ 尽可能小的 $w$ 和 $b$ 。

梯度下降法：

下图中的横轴表示空间参数 $w$ 和 $b$ 。在实际情况中 $w$ 可以是更高维的，这里为了方便，就让 $w$ 是一个实数。成本函数 $J(w, b)$ 是在水平轴 $w$ 和 $b$ 上的曲面，曲面的高度表示了 $J(w, b)$ 在某一点的值。

我们希望找到点 $(w, b)$ ，使其对应的成本函数 $J$ 值为最小值。可以看到，成本函数 $J(w, b)$ 是一个凸函数（非凸函数往往有多个局部最优解，凸函数的局部最优即为全局最优），这也是将 $J(w, b)$ 作为Logistic回归成本函数的重要原因之一。

起先，用某初始值初始化 $w$ 和 $b$ 。对于Logistic回归而言，由于其是凸的，几乎是任意的初始化方法都有效，都应该达到同一点或者大致相同的点。梯度下降的做法就是，从初始点开始朝最陡的下坡方向走一步，也就是说尽可能快地往下走。一步一步向下走，很有希望收敛到或接近这个全局最优解。

对 $J(w, b)$ 实际进行参数更新时，每次梯度下降循环将对 $w$ 和 $b$ 的进行如下操作：
$w:=w-\alpha \frac{\partial J(w,b)}{\partial w}$
$b:=b-\alpha \frac{\partial J(w,b)}{\partial b}$