【ML模型详细推导3】- 感知机

最新推荐文章于 2023-12-21 10:51:56 发布

Kevin亓(Qi)

最新推荐文章于 2023-12-21 10:51:56 发布

阅读量422

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习模型详细推导文章标签：机器学习详细推导感知机对偶形式模型

本文链接：https://blog.youkuaiyun.com/KevinBetterQ/article/details/84331696

机器学习模型详细推导专栏收录该内容

6 篇文章

订阅专栏

本文深入解析感知机模型，包括其作为二分类线性分类器的角色，原始形式与对偶形式的详细模型介绍，以及随机梯度下降的学习算法。探讨了感知机在数据线性可分情况下的应用，对偶形式的优势及其实现策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 一句话介绍感知机

· 一个二分类的线性分类模型。
· 感知机学习旨在求出将训练集数据进行线性划分的分类超平面，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得模型。
· 分为原始形式和对偶形式。

2. 模型介绍（原始形式）

前提：数据集要求线性可分性
- 模型：
$f (x) = s i g n (w x + b)$
$其中，sign(x)=\left\{\begin{matrix} +1,& x\geqslant 0 & \\ -1 & x<0& \end{matrix}\right.$

- 损失函数（学习策略）
损失函数，误分类点到超平面的“函数间隔”和：
$-\sum_{x_i\in M}y_i (wx_i+b)$ 其中， $M$ 为误分类的集合。

函数间隔待了解
（Q1：什么是函数间隔，和几何间隔的区别）

- 随机梯度下降（学习算法）

随机梯度下降法，最小化损失函数 $L (w, b)$
梯度：
$\triangledown _wL(w,b)=-\sum _{x_i\in M}y_i x_i \\$ $\triangledown _bL(w,b)=-\sum _{x_i\in M}y_i$
随机选取一个数据点 $x_i,y_i)$ ，判断其是否误分类，也就是判断 $y_i\cdot(wx+b)<0$ 与否
若 $y_i f(x)<0$ ，对 $w, b$ 进行更新：
$w\leftarrow w+\eta y_ix_i$ $b\leftarrow b+\eta y_i$ 其中， $\eta$ 为学习率。
感知机学习算法是误分类驱动的，这样，因为数据线性可分，通过迭代可以直至训练集中没有误分类点。

3. 感知机的对偶形式

- 模型：
将训练集 ${(x_1,y_1)(x_2,y_2)…(x_i,y_i)\}$ 全部代入进行随机下降，若第 i 个样本用的次数为 $n_i$ ，则最后训练出的 $w$ 和 $b$ ：
$\sum _{i=1}^{N}n_i\eta y_ix_i$ $\sum _{i=1}^{N}n_i\eta y_i$

将 $w$ 和 $b$ 带入感知机原始形式得对偶形式：
$sign(\sum _{j=1}^{N}n_j\eta y_jx_j \cdot x+ \sum _{j=1}^{N}n_j\eta y_j)$
此时，参数就由 $w$ 和 $b$ ，变为了 $n_1, n_2 … n_N$
所以要求 f(x) ，就要求出 $n_i$

- 策略：
从训练集中选数据，直到没有误分类点

- 算法：
从训练集中选数据，直到没有误分类点
1）初始化 $\forall n_i=0$
2）在训练集选数据 $x_i,y_i)$
3）若 $y_i\cdot(\sum _{j=1}^{N}n_j\eta y_jx_j \cdot x_i+ \sum _{j=1}^{N}n_j\eta y_j)<0$ ，代表分错了，更新 $n_i = n_i+1$
4）转到2直到没有误分类数据

为何会有对偶形式？（对偶形式的好处）：
对偶形式的目的是降低运算量，但是并不是在任何情况下都能降低运算量，而是在特征空间的维度很高时才起到作用。
设样本特征维度为n，样本数量为m，m相对于n很小，也就是特征维度很高：
首先考虑原始的感知机学习算法，每一轮迭代至少要判断某个输入实例是不是误判点，也就是要计算是否 $y_i\cdot(wx+b)<0$ 。这里的运算量主要集中在 $w x$ 的内积计算上，时间复杂度为 $O (m)$ ，由于特征维度m很大，所以会很慢。
在对偶形式的学习算法中，判断输入实例 $x_i,y_i)$ 是否误判的条件变换为 $y_i\cdot(\sum _{j=1}^{N}n_j\eta y_jx_j \cdot x_i+ \sum _{j=1}^{N}n_j\eta y_j)<0$ 。可以看到这里所有的输入实例都仅仅以内积的形式 $x_jx_i$ 出现，可以预先计算输入实例两两之间的内积，得到所谓的Gram矩阵 $G=[x_ix_j]_{N*N}$ ，这样一来，每次误判检测时直接在Gram矩阵里查表就能拿到内积 $x_jx_i$ ，所以这个误判检测的时间复杂度是 $O (n)$
可以看出，对偶形式的感知机，把每轮迭代的时间复杂度的从特征维度m转移到了训练集大小n上，那么对于维度非常高的空间，运算量自然就降低了。