机器学习概念--李宏毅机器学习笔记_学习因子学习率学习步长适应度目标函数:误差控制,计算代价函数约束条件:惩罚-优快云博客

本文链接：https://blog.youkuaiyun.com/knofrab/article/details/146449392

机器学习的核心目标：让机器“找出一个函数”。

使用 梯度下降法（Gradient Descent）：
- 计算 Loss 对参数的偏导数（斜率）；
- 按照负梯度方向更新参数；
- 步长由 学习率（Learning Rate, η） 控制；
- 不断迭代直到 Loss 不再明显下降或达到设定迭代次数。

考虑多个特征x时

蓝色框里的内容简化后，r=b+Wx：

进一步简化得a：

再进一步：

最后所有未知的需要求解的参数（W, b, c 等）统称为 θ

可用两个 ReLU 函数组合成一个 Hard Sigmoid。

此时我们将loss定义为θ的函数L(θ)

这个 Loss Function 要问的就是 , 这个 θ 如果它是某一组数值的话 , 会有多不好或有多好

通常的流程：

1、先给定某一组w，b，c 的值 , 假设你知道 w，b，c 的值是多少。

2、然后把一种 Feature x 带进去 , 然后看看你估测出来的 y 是多少。

3、再计算一下跟真实的 Label 之间的差距 , 你得到一个 e。

4、把所有的误差通通加起来，你就得到你的 Loss。

现在的 θ 是一个很长的向量 , 我们把它表示成 θ 1， θ 2， θ 3 （数字下标）等等等 , 我们现在就是要找一组 θ，这个 θ 可以让我们的 Loss 越小越好

一开始要随机选一个初始的数值θ0(数字上标)，对θ0内每一个未知的参数,都去计算 L对它的微分，集合形成的向量就是梯度，记为g，接下来θ1(数字上标)向着梯度g相反的方向变化，并乘以一个学习率η

实际上不会直接拿整个L去对θ求微分然后更新，通常是分成一个个包Batch，每次更新一次参数叫做一次 Update,把所有的 Batch 都看过一遍,叫做一个 Epoch