感知机模型

最新推荐文章于 2024-12-06 22:45:04 发布

原创最新推荐文章于 2024-12-06 22:45:04 发布 · 147 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

统计学习方法专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了感知机模型，包括如何在特征空间寻找分离超平面，损失函数的定义及其与误分类点的距离关系。讲解了随机梯度下降法（SGD）在优化权重和偏置上的应用，以及对偶形式的感知机模型及其在降低运算复杂度方面的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

感知机

感知机模型

分离超平面

输入空间（特征空间）为 $x\subseteq R^n$ ，输出空间为 $y=\{+1, -1\}$ ，从输入空间到输出空间的函数为
$\tag 1$
其中 $w\in R^n$ ，叫做权值向量； $b\in R$ 叫做偏置（注意不是 $R^n$ ）；sing是符号函数，即
$sing(x)=\left\{\begin{array}{ll} +1, & x\ge 0 \\ -1, & x<0 \end{array}\right. \tag 2$
感知机模型需要在特征空间 $R^n$ 中找到一个分离超平面S将特征空间划分为两部分，位于这两部分的点也就被分为了正负两大类。该分离超平面S的线性方程为
$\tag 3$
其中w是超平面的法向量；b是超平面的截距

损失函数

要将若干点 $x_i\in x \subseteq R^n$ 正确划分到正负两大类中，就需要找到一个分离超平面对任意实例i都遵从下式
$\left\{\begin{array}{ll} w·x_i+b>0, & y_i=+1 \\ w·x_i+b<0, & y_i=-1 \end{array}\right. \tag 4$
若有实例点不遵从（4），则是误分类数据，对于误分类数据 $x_i,y_i)$ 来说
$\left\{\begin{array}{ll} y_i=-1, & w·x_i+b>0 \\ y_i=+1, & w·x_i+b<0 \end{array}\right. \tag 5$
由（5）可得
$-y_i(w·x_i+b)>0 \tag 6$
误分类点到分离超平面S的距离可以衡量S选择的优劣程度，因此损失函数将与误分类点到分离超平面的距离相关

输入空间 $R^n$ 中任一点 $x_0$ 到超平面的距离公式为
$d=\frac{|w·x_0+b|}{||w||_2} \tag 7$
其中 $w||_2$ 是w的L2范数

设误分类集合为M，结合（6）可知，所有误分类点到超平面的总距离为
$D=-\frac{1}{||w||_2}\sum_{x_i\in M} y_i(w·x_i+b) \tag 8$
其中 $y_i\in \{-1,+1\}，D>0$

忽略常数 $\frac{1}{||w||_2}$ ，可得感知机学习的损失函数
$L(w,b)=-\sum_{x_i\in M} y_i(w·x_i+b) \tag 9$

原始形式

由损失函数可得损失函数的梯度 $\nabla L(w,b)$ ，对w与b分别求偏导数可得
$\nabla_w L(w,b)=-\sum_{x_i\in M} y_ix_i \\ \nabla_b L(w,b)=-\sum_{x_i\in M} y_i \tag{10}$
梯度代表函数在该点 $x_i, y_i)$ 沿着该方向（梯度是向量）是变化最快、变化率最大的。因此梯度的负方向是局部下降最快的方向，为了优化分离超平面最小化损失函数，就需要对各个参数加上其梯度的负方向值。此处我们采用随机梯度下降法优化参数。

关于BGD、SGD、MBGD

随机梯度下降法即每次仅选取一个点进行迭代，此时 $∣ M ∣ = 1$ ，由（10）可得此时损失函数的梯度为
$\nabla_w L_{SGB}(w,b)=-y_ix_i \\ \nabla_b L_{SGB}(w,b)=-y_i \tag{11}$
更新后的w，b为
$w\gets w+\eta y_ix_i \\ b\gets b+\eta y_i \tag{12}$
其中 $\eta(0<\eta \leq1)$ 是步长（学习率），它控制函数拟合（收敛）的速度。若 $\eta$ 太小，收敛就会很慢；若 $\eta$ 太大，容易在最低点方向震荡，进入死循环。

通过迭代可以期待损失函数不断减小直至为零，此时即可得到分离超平面 $w \cdot x + b = 0$

对偶形式

每一个线性规划问题的原始形式皆有一个与之对称并可相互转换的对偶形式，因此原始形式与对偶形式的解是对应的，得到一个形式的解即是得到另一个形式的解。

我们在一次迭代时遍历所有的样本点，并累计每个点的误分类次数n。即点 $x_i$ 在一次迭代时被误分类了，那么 $n_i$ 则加一。值得一提的是， $n_i$ 更大的点表明该点更经常被误分类，很明显，离分离超平面越近的点越容易被误分。

依据（12）当初始化 $w_0=0,b_0=0$ 时，经过若干次迭代可得参数值
$w=\sum_{i=1}^{N} n_i\eta x_iy_i \\ b=\sum_{i=1}^{N} n_i\eta y_i \tag{13}$
其中N为所有样本点的总数

令 $\alpha =n_i\eta$ ，将（13）代入（1）可得对偶形式的感知机模型
$f(x)=sign(\sum_{i=1}^{N} \alpha x_iy_i·x+\sum_{i=1}^{N} \alpha y_i) \tag {14}$
与原始形式一样我们采用随机梯度下降法优化参数

令 $\alpha =n_i\eta$ ，将（13）代入（6）可得对偶形式的误分类点 $x_i,y_i)$ 的判别式
$-y_i(\sum_{k=1}^{N} \alpha_kx_ky_k·x_i+\sum_{k=1}^{N} \alpha_k y_k)>0 \tag {15}$
其中N为所有样本点的总数，k的作用是遍历样本点计算w与b

当随机找到的一个点 $x_i,y_i)$ 属于误分类点符合（15）时，需要更新参数 $\alpha_i$
$\begin{array}{ll} & \because & \alpha_i& =n_i\eta \\ &\therefore & \alpha_i & \gets \eta(n_i+1) \\ & & \alpha_i & \gets \alpha_i +\eta \end{array} \tag{16}$
与原始形式一样，通过迭代可以期待损失函数不断减小直至为零，此时即可得到分离超平面 $w \cdot x + b = 0$

之所以使用对偶形式，是因为在原始形式的判别式（6）中主要的运算量来自于 $w·x_i$ ，而对偶形式的判别式（15）主要的运算量来自于 $x_i·x_k$ 。其中 $x_i·x_k$ 可以通过预先计算的Gram矩阵快速获取。Gram矩阵是所有输入实例两两之间的内积 $G=[x_ix_k]_{N\times N}$