L1神经网络与深度学习-2.4梯度下降法

原创已于 2025-10-15 14:51:30 修改 · 922 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #神经网络 #人工智能

于 2025-10-15 14:13:49 首次发布

吴恩达深度学习课程笔记专栏收录该内容

11 篇文章

订阅专栏

以刚才讲过的logistic回归为例，我们的目标是要找到使得J(w,b)尽可能小 的w和b

如上图所示,水平的两个轴是w和b【为了方便绘图认为w是一个实数，实际上是更高维的】,J(w,b)是一个曲面。曲面在某个点(w,b)的高度，就是J(w,b)的值
我们要找到w和b使得成本函数J的值为最小值

J是一个凸函数，对于凸函数，在哪里初始化都会到达或接近最低点

而下面这种函数会存在很多局部最优解

梯度下降法：

从初始点开始，朝着最陡的下坡方向走一步，这是一次迭代；随着迭代，很有希望收敛到或接近局部最优解

上图是忽略b，用J与w的关系曲线来演示梯度下降法，这样图象是二维的，便于理解

$Repeat\{ w:=w-\alpha \frac{dJ(w)}{dw} \}$

“:=”表示更新，“repeat”就是重复更新w的值

α是学习率，可以控制每一次迭代的步长。

$\frac{dJ(w)}{dw}$ 是导数

无论初始点在左边还是右边，最终都会收敛到中间的最低点
同理，对于有两个参数的J（w,b）,迭代过程为：

$w:=w-\alpha \frac{\partial J(w,b)}{\partial w}$

$b:=b-\alpha \frac{\partial J(w,b)}{\partial b}$

$\partial$ 为偏导数符号，因为J（w,b）有两个变量。不过在编写代码时都会写为dw和db

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。