《白话机器学习的数学》第三章------学习分类

最新推荐文章于 2024-09-13 15:02:56 发布

永远怀着学徒的心

最新推荐文章于 2024-09-13 15:02:56 发布

阅读量236

点赞数

文章标签：学习

本文链接：https://blog.youkuaiyun.com/killer884800/article/details/131134142

版权

文章介绍了二分类问题的基本概念，如感知机模型，判别函数及其权重向量更新。接着，讨论了线性不可分问题以及逻辑回归在解决此类问题中的应用，特别是sigmoid函数在表示概率和决策边界中的作用。此外，文章还涉及了似然函数和对数似然函数的概念，用于优化模型参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.二分类问题

分类问题最简单的就是二分类问题，最经典的是这个动物是🐱还是🐕呢，还有图片分类问题

这些图片有两个变量，分别为宽和高，如何通过宽和高来判断这个图片是纵向还横向。可以利用回归进行解决，设权重 $w=（w1，w2）$ ，x=(x1，x2)，构建wx=0，w向量是与分类直线相互垂直的直线，即是x的法向量。

要想使内积为0，只能使 cos θ = 0。要想使 cos θ = 0，也就意味着 θ = 90◦ 或 θ = 270◦ ，这两种情况也是直角。

2. 感知机

感知机是接受多个输入后将每个值与各自的权重相乘，最后输出总和的模型。

3.判别函数

接下来，根据参数向量 x 来判断图像是横向还是纵向的函数，即返回 1 或者 − 1 的函数 f w ( x ) 的定义如下。这个函数被称为判别函数。

wx小于0，则与权重向量 w 之间的夹角为 θ ，在 90 ◦ <θ< 270 ◦ 范围内

权重向量的更新

通过判别函数对宽和高的向量 x 进行分类的结果与实际的标签 y 不同，判别函数的分类结果不正确，这也就是说，刚才的更新表达式只有在判别函数分类失败的时候才会更新参数值。在更新的时候通过w+yx，使得w向量进行旋转，从而使得错误的判断变的正确。

4.线性不可分

感知机的缺点是，它只能解决线性可分问题。

类图像数据的维度一般会很高，所以无法可视化。但是想一想也知道，根据图像特征进行分类的任务肯定不是那么简单的。我想大部分情况下是线性不可分的

逻辑回归

sigmoid 函数

这是通过最速下降法或随机梯度下降法来学习参数 θ 的表达式。使用这个 θ 能够求出对未知数据 x 的输出值。

这里的思路是一样的。我们需要能够将未知数据分类为某个类别的函数 f θ ( x ) 。

刚才说到把表达式的 f θ ( x ) 当作概率来使用，那么接下来就把未知数据 x 是横向图像的概率作为 f θ ( x ) 。其表达式是这样的。

这是条件概率，解释为在给出 x 数据时 y = 1，即图像为横向的概率。以 0.5 为阈值，然后把 f θ ( x ) 的结果与它相比较，从而分类横向或纵向。

在 θ T x = 0 时， f θ ( x )=0 . 5

继续改写表达式：

利用向量进行表示：

θTx = −100 · 1+2x1 + x2 ⩾ 0

x2 ⩾ −2x1 + 100

这就是决策边界

5.似然函数

● y = 1 的时候，我们希望概率 P ( y = 1 | x ) 是最大的

● y = 0 的时候，我们希望概率 P ( y = 0 | x ) 是最大的

假定所有的训练数据都是互不影响、独立发生的，这种情况下整体的概率就可以用下面的联合概率来表示。

L ( θ ) = P ( y (1) = 0 | x (1) ) P ( y (2) = 0 | x (2) ) ··· P ( y (6) = 1 | x (6) )

一般化：

y=1时，1-y的指数为0，这样就把其中y=0的条件概率改为了1，也就达到了：

● y = 1 的时候，我们希望概率 P(y = 1|x) 是最大的

● y = 0 的时候，我们希望概率 P(y = 0|x) 是最大的

回归的时候处理的是误差，所以要最小化，而现在考虑的是联合概率，我们希望概率尽可能大，所以要最大化。
这里的目标函数 L ( θ ) 也被称为似然，函数的名字 L 取自似然的英文单词 Likelihood 的首字母

6. 对数似然函数

不过直接对似然函数进行微分有点困难，在此之前要把函数变形

取log：

化简

似然函数的微分

前面讲了很多，总结一下就是逻辑回归将这个对数似然函数用作目标函数

接下来要做的就是从这个表达式导出参数更新表达式。不过现在是以最大化为目标，所以必须按照与最小化时相反的方向移动参数

最小化时要按照与微分结果的符号相反的方向移动，而最大化时要与微分结果的符号同向移动。