机器学习中的数学

SuperGQB

已于 2025-05-25 21:20:56 修改

阅读量593

点赞数 15

分类专栏：深度学习&机器学习文章标签：机器学习人工智能

于 2025-02-27 10:37:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/SuperGQB/article/details/133817288

版权

深度学习&机器学习专栏收录该内容

5 篇文章

订阅专栏

目录

1.1 设置问题

1.2 定义模型

1.3 最小二乘法

1.3.1 最速下降法

1.4 多项式回归

1.5 多重回归

1.6 随机梯度下降法

（二）分类

2.1 设置问题

2.3.1 训练数据的准备

2.3.2 权重向量的更新表达式

2.4 线性可分

2.5 逻辑回归

2.5.1 sigmoid 函数

2.5.2 决策边界

2.6 似然函数

2.7 对数似然函数

2.8 线性不可分

(一) 回归

1.1 设置问题

1.2 定义模型

1.3 最小二乘法

假设有 n 个训练数据，那么它们的误差之和可以用这样的表达式表示。这个表达式称为目标函数，E ( θ ) 的 E 是误差的英语单词 Error 的首字母。

我们自己定义一个预测函数：

$\sum$ 是求和符号，我们对每个训练数据的误差取平方之后，全部相加，然后乘以 1/2。这么做是为了找到使 E ( θ ) 的值最小的 θ 。这样的问题称为最优化问题。我们要修改参数 θ ，使这个值变得越来越小。让这个值变小，也就是让误差变小。

1.3.1 最速下降法

微分是计算 变化的快慢程度 时使用的方法

只要向与导数的符号相反的方向移动 x ， g ( x ) 就会自然而然地沿着最小值的方向前进了

1.4 多项式回归

相比于直线，曲线拟合的更好

像这样增加函数中多项式的次数，然后再使用函数的分析方法被称为多项式回归。

1.5 多重回归

之前只是根据广告费来预测点击量，现在呢，决定点击量的除了广告费之外，还有广告的

展示位置和广告版面的大小等多个要素。

多个变量表达式：

可以用向量来表示：

最速下降法的参数更新表达式：

所谓的最速下降法就是对所有的训练数据都重复进行计算，so计算量大、计算时间长是最速下降法的一个缺点，还有容易陷入局部最优解

1.6 随机梯度下降法

（二）分类

学习分类：基于图像大小进行分类

花了一点儿钱打广告之后，我的 Web 网站的访问数就增加了。现在网站上积累了许多时装照片，所以我们就从时装照片的分类我们不去考虑图像本身的内容，只根据尺寸把它分类为纵向图像和横向图像，你看怎么样？把图像分成两种类别……这就是二分类问题。

2.1 设置问题

2.2 内积

目的是找出向量

w 权重

权重向量就是我们想要知道的未知参数， w 是权重一词的英文——weight 的首字母。上次学习回归时，我们为了求未知参数 θ 做了很多事情，而 w 和 θ 是一样的。

设 w = (1,1)

得出 X2 = -X1

图像为

权重向量 w 和这条直线是垂直的！

这就是“使权重向量成为法线向量的直线”在图形上的解释。

最终找到与我画的直线成直角的权重向量就行了吗（图 3-8 ）

是的。当然，一开始并不存在你画的那种直线，而是要通过训练找到权重向量，然后才能得到与这个向量垂直的直线，最后根据这条直线就可以对数据进行分类了。

2.3 感知机

如何求出权重向量？

和回归差不多，将权重向量用作参数，创建更新表达式来更新参数。

要用到感知机模型！

感知机是接受多个输入后将每个值与各自的权重相乘，最后输出总和的模型。

2.3.1 训练数据的准备

设表示宽的轴为 x1、表示高的轴为 x2，用 y 来表示图像是横向还是纵向的，横向的值为 1、纵向的值为 −1。

判别函数：

在 90 ◦ <θ< 270 ◦ 的时候 cos θ 为负

内积是衡量向量之间相似程度的指标。结果为正，说明二者相似；为 0 则二者垂直；为负则说明二者不相似。

2.3.2 权重向量的更新表达式

i 在介绍回归的时候也出现过，它指的是训练数据的索引，而不是 i 次方的意思，这一点一定要注意。用这个表达式重复处理所有训练数据，更新权重向量。

f w ( x ( i ) ) /= y ( i )

通过判别函数对宽和高的向量 x 进行分类的结果与实际的标签 y 不同？也就是说，判别函数的分类结果不正确。

这也就是说，刚才的更新表达式只有在判别函数分类失败的时候才会更新参数值。分类成功的时候是直接代入 w 的，所以什么都没有变。

向量的加法：

2.4 线性可分

感知机的缺点是什么？

最大的缺点就是它只能解决线性可分的问题。

线性可分指的就是能够使用直线分类的情况，像下图这样不能用直线分类的就不是线性可分。

实际上多层感知机就是神经网络了。

2.5 逻辑回归

算法与感知机的不同之处在于，它是把分类作为概率来考虑的。

2.5.1 sigmoid 函数

因为 sigmoid 函数的取值范围是 0 < f θ ( x ) < 1 ，所以它可以作为概率来使用。

2.5.2 决策边界

你应该是以 0.5 为阈值，然后把 f θ ( x ) 的结果与它相比较，从而分类横向或纵向

从图中可以看出在 f θ ( x ) ⩾ 0 . 5 时， θ T x ⩾ 0

我们将 θ T x = 0 这条直线作为边界线，就可以把这条线两侧的数据分类为横向和纵向了。这样用于数据分类的直线称为决策边界。

和回归的时候一样，是因为我们随意决定了参数。为了求得正确的参数 θ 而定义目标函数，进行微分，然后求参数的更新表达式。这种算法就称为逻辑回归 。

2.6 似然函数

现在，我们就一起来求参数的更新表达式吧。这里的目标函数 L(θ) 也被称为似然，

是呀。接下来考虑一下使这个目标函数最大化的参数 θ 吧。我们可以认为似然函数 L(θ) 中，使其值最大的参数 θ 能够最近似地说明训练数据。

2.7 对数似然函数

我们就对似然函数进行微分，求出参数 θ 就行了

我们已经知道sigmoid函数的微分式

则

接下来要做的就是从这个表达式导出参数更新表达式。不过现在是以最大化为目标，所以必须按照与最小化时相反的方向移动参数哦。就是说，最小化时要按照与微分结果的符号相反的方向移动，而最大化时要与微分结果的符号同向移动。

2.8 线性不可分

用直线不能分类的问题

我们要像学习多项式回归时那样，去增加次数，我们就向训练数据中加入 x 21，考虑这样的数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。