机器学习初学者笔记（二）

zdswyh123

于 2020-04-14 20:40:38 发布

阅读量167

点赞数

分类专栏：机器学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zdswyh123/article/details/105519182

版权

机器学习笔记专栏收录该内容

3 篇文章

订阅专栏

7 工作流程：

输入一个x，然后通过学习算法能够输出函数H，进而预测y。这里的函数H是假设函数是一个引导x到y的函数。

8 如何决定函数h？通过利用代价函数。

若有训练集以及一个函数，则代价函数为（这里m前有2是为了方便求导，下一步需要求解其最小值以使 $\theta_{0}, \theta_{1}$ 最优。求解最小化J函数为cost function。

9 如何确定代价函数的最小值对应的 $\theta_{0}, \theta_{1}$ 最优？利用梯度下降法

梯度下降法的思想是：开始时随机给定一个参数的组合，计算代价函数，然后寻找下一个能让代价函数值下降最多的参数组合，持续这么做直到到到一个局部最小值。由于给定的初始值不同则其局部最优解也不同。

梯度下降法的公式为： ${\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)$ 其中 $\alpha$ 为学习率，在这个式子中最重要的是做到同步更新

对于这个式子，就是对赋值，使得按梯度下降最快方向进行，一直迭代下去，最终得到局部最小值。

如图所示求导部分就是在某一点进行求导如图中的红色直线，求完导数后，得到的新的，更新后等于减去一个正数乘以。

对于学习率 $\alpha$ 。如果它太小了，结果就是只能一点点地挪动，去接近最低点，这样就需要很多步才能到达最低点，导致所花费的时间过多。

如果其太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点，直到发现实际上离最低点越来越远，所以，如果学习率太大，它会导致无法收敛，甚至发散。

那么学习率的选择对于梯度下降法则非常重要。但在梯度下降过程中，不需要更改学习率，原因如下：

随着梯度下降法的进行，导数（斜率）会逐渐减小，如图所示，这会使得更新的幅度变小。所以随着梯度下降法的运行，移动的幅度会自动变得越来越小，直到最终移动幅度非常小，最后实现收敛到局部极小值。因此不需要额外减小学习率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zdswyh123 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。