机器学习----AndrewNg视频笔记记录03

今天不要熬夜

于 2023-09-09 18:24:51 发布

阅读量106

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习记录文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/remaining2/article/details/132773634

机器学习记录专栏收录该内容

11 篇文章

订阅专栏

本文详细介绍了梯度下降算法在优化线性回归中的应用，包括其工作原理、学习率选择、局部最小值、批量梯度下降与mini-batch的区别，以及如何确保收敛到全局最小值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降算法介绍

梯度下降算法可以被用作try to minimize任何函数而不仅仅是线性回归的成本函数，所以为了使得对梯度下降的讨论更加普遍，并且梯度下降也适用于更一般的函数，于是我们在此处使用w1到wn和b的参数，并在outline（概述）中表达出梯度下降的三个工作步骤

在线性回归中初始值是多少并不重要，常见的一个选择就是把w和b都设置为0

对于具有平方误差成本函数的线性回归，J的图像会总是以碗状bowl shape或者吊床形结束，但是J不总是呈现这种形状，于是最小值可能有多个：

梯度下降所做的就是帮助你找最陡的下坡路线，其有一个有趣的特性就是：局部最小值

梯度下降的实现（数学表达式）

α学习率，在做的就是控制步长的大小；导数项（偏导）在做的就是控制朝着哪个方向迈步

要同时更新w和b这两个参数，不要使用右边这样的；并且重复这两个步骤直到收敛convergence

理解梯度下降（what it's doing和why it might make sense）

为了简化问题，更加直观，这里我们仍然将b设置为0

当你选择从右侧开始进行梯度下降时，通过计算其偏导数项为正值，它使得w越来越小，直至接近最小值；当你选择从左侧开始进行梯度下降时，通过计算其偏导数项为负值，它使得w越来越大，直至接近最小值

学习率的选择

如果学习率的值很小，梯度下降的速率可能会很慢，即使最终也可以达到最小值

如果学习率的值很大，梯度下降采用很大的步伐，可能会越过最小值点，不会收敛甚至发散

需要明确的一点是，当我们已经处在了最小值点，此时的导数项已经为0，所以参数会保持不变。

当靠近局部最小值点时，导数项会变得越来越小，导致更新的步伐也越来越慢，这一过程并不需要减少学习率便可以到达最小值

线性回归算法

将此前的线性回归模型，成本函数和梯度下降算法pull together就得到我们机器学习的第一个学习算法：线性回归算法，此处成本函数我们依旧采用平方误差成本函数。于是，这就允许我们训练线性回归模型去拟合数据并形成一条直线。

关于这两个偏导数项是如何计算出的，Andrew给出了推导：就是一个简单的求导过程

在计算出这两个导数项之后，梯度下降算法可以表达为：

当线性回归问题中使用平方误差成本函数时，成本函数不会有多个局部最小值，因为此函数为凸函数，informally来讲，图像是碗状的（bowl shape）只有单个全局最小值，而不会存在多个局部最小值。

所以当我们在凸函数上使用梯度下降的时候，as long as我们采用了恰当的学习算法那么就会始终收敛到全局最小值

运行梯度下降（线性回归算法应用in action）

Andrew在本例中并不是初始化w和b都为0的情况，而是从这个浅蓝色这个点开始进行梯度下降，不断下坡，使得成本函数逐渐减少，最终达到全局最小值处。

更准确地讲，这种梯度下降方法称之为batch gradient descent

实际上梯度下降的类型有很多，而在线性回归问题中我们采用batch gradient descent

mini-batch梯度下降

在batch梯度下降中你必须处理完所有的训练样本（处理整个训练集），才可以进行一次梯度下降，然后需要再处理一次才能再进行一次梯度下降，而mini-batch则是将整个训练接分割成一个个的小样本集，instead of处理整个训练集，它只处理每一个分割出来的mini-batch.

当你有一个很large的训练集时采用mini-batch的效率要比batch的效率高，所以在训练巨大数据集的时候都会使用到mini-batch

如果mini-batch的size为样本数量m，则退化为batch梯度下降，其弊端就是在训练集很大的情况下每一个迭代所需要的时间太长，如果训练集适中那么batch的效果不会很差

如果mini-batch的size为1，则变为随机梯度下降，每一个样本都是一个mini-batch，虽然总体上是朝着最小值方向但是噪声将会很大，这也失去了向量化的优势

而适当大小的mini-batch的size，学习得更快，其优势在于：利用了向量化的优势，另一方面你无需等待整个训练集被处理完就可以开始进行后续工作

它同样不会总朝着最小值靠近，但它比随机梯度下降要更加持续地靠近最小值的方向，它也不一定在很小的范围内收敛或波动如果出现这一问题，可以通过慢慢减少学习率（学习率衰减）的方式解决

此处当训练样本m为5,000,000时，每1000个样本归入一个mini-batch

x(i)是指第i个训练样本，z[l]是指神经网络中第l层的z值，X{t}和Y{t}是指不同的mini-batch

第一周结语

通过学习，我们知道了对于只有一个输入变量的时候如何实现线性回归，接下来我们将会引入多个输入特征，学习如何让它拟合非线性曲线，这些改进将会使得算法更加有意义和有价值

今天不要熬夜

博客等级

码龄5年

20
原创

89
点赞

56
收藏

57
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 机器学习----AndrewNg视频笔记记录02

下一篇：: 机器学习----AndrewNg视频笔记记录04

最新评论

具体数学复习篇——第二章和式（调和数及性质为重点）
qq_52748700: 大佬是tj的吗？
具体数学复习篇——第二章和式（调和数及性质为重点）
优快云-Ada助手: 感谢作者的辛勤劳动，第16篇博客内容丰富，对具体数学复习提供了很大的帮助。在第二章和式中，对调和数及其性质进行了重点剖析，让我受益匪浅。希望作者能够继续保持创作的热情，为大家带来更多有益的知识分享。同时，建议作者在未来的创作中，可以适当增加一些实例分析，让读者更容易理解并应用所学知识。期待作者的下一篇作品！
具体数学复习篇——第三章整值函数01取整（平常作业题中有谱的分割证明，复习仍然还需注意）
优快云-Ada助手: 恭喜您写了第17篇博客，题目看起来很专业呢！对于整值函数和取整这个复杂的话题，您的解释确实让人受益匪浅。不过我觉得在下一篇博客中，您可以尝试加入一些具体的例子或者应用场景，这样更能帮助读者理解这个概念。希望您能继续保持创作，期待您更多精彩的文章！
机器学习----AndrewNg视频笔记记录10
优快云-Ada助手: 恭喜你第10篇博客的发布！你对AndrewNg的视频做出了非常详细的记录，让我从中学到了很多知识。希望你能继续保持创作的热情，不断进步。或许下一步可以考虑分享一些自己的实践经验，或者对机器学习领域的一些新趋势进行分析，这样会更加丰富你的博客内容。期待你的下一篇作品！
机器学习----AndrewNg视频笔记记录11
优快云-Ada助手: 恭喜你写了第11篇博客，对Andrew Ng的视频进行了记录和总结！你的坚持和努力让我非常钦佩。接下来，我建议你可以尝试结合自己的实践经验，分享一些实际应用中的案例分析，或者深入探讨一些机器学习领域的前沿技术，这样可以让你的博客内容更加丰富和有深度。期待你的下一篇作品！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。