【机器学习】感知机模型的原始形式和对偶形式

最新推荐文章于 2025-06-21 11:30:00 发布

旅途中的宽~

最新推荐文章于 2025-06-21 11:30:00 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习系列文章文章标签：感知机模型对偶形式

本文链接：https://blog.youkuaiyun.com/wzk4869/article/details/128512648

机器学习系列文章专栏收录该内容

77 篇文章

订阅专栏

文章介绍了感知机模型，作为线性分类器的基础，其几何解释涉及超平面和误分类点。感知机学习算法采用随机梯度下降法，通过迭代更新权重w和截距b，以最小化损失函数。原始形式的学习算法是误分类驱动的，而对偶形式则简化了参数，将权重表示为实例和标记的线性组合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、感知机模型

感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合 $\{f|f(x)=w\cdot x+b\}$ 。

感知机有如下几何解释：线性方程
$w\cdot x+b=0$
对应于特征空间 $R^n$ 中的一个超平面 $S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面 $S$ 称为分离超平面。

对于误分类的数据 $x_i,y_i)$ 来说，
$-y_i(w\cdot x_i+b)>0$
成立。因为当 $w\cdot x_i+b>0$ 时， $y_i=-1$ ；而当 $w\cdot x_i+b<0$ 时， $y_i=+1$ 。因此，误分类点 $x_i$ 到超平面 $S$ 的距离是
$-\frac{1}{||w||}y_i(w\cdot x_i+b)$
这样，假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
不考虑 $\frac{1}{||w||}$ ，就得到感知机学习的损失函数。

损失函数定义为
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$

二、感知机学习算法的梯度下降

感知机学习算法是对以下最优化问题的算法。

给定一个训练数据集
$T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$
其中， $x_i\in \chi =R^n$ ， $y_i\in \{-1,+1\}$ ， $i=1,2,\cdots,N$ ，求参数 $w$ 和 $b$ ，使其为以下损失函数极小化问题的解
$min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
其中 $M$ 为误分类点的集合。

感知机学习算法是误分类驱动的，具体采用随机梯度下降法。

首先，任意选取一个超平面 $w_0$ 和 $b_0$ ，然后用随机梯度下降法不断地极小化目标函数。极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。

这个有一个易混淆的点：

梯度下降：一次将误分类集合中所有误分类点的梯度下降
随机梯度下降：随机选取一个误分类点使其梯度下降

损失函数 $L (w, b)$ 的梯度为
$\nabla_{w}L(w,b)=-\sum_{x_i\in M}y_ix_i$
$\nabla_{b}L(w,b)=-\sum_{x_i\in M}y_i$
随机选取一个误分类点 $x_i,y_i)$ ，对 $w$ 和 $b$ 进行更新
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow b+\eta y_i$
上式中， $\eta$ （ $0<\eta <=1$ ）是步长，又称为学习率。

三、感知机学习算法的原始形式

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$

输出： $w$ 和 $b$ ，感知机模型 $f(x)=sign(w\cdot x+b)$

（1）选取初值 $w_0$ 和 $b_0$ ；

（2）在训练集中选取数据 $x_i,y_i)$

（3）如果 $y_i(w\cdot x_i+b)\leqslant 0$ ，
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow b+\eta y_i$
（4）转至（2），直至训练集中没有误分类点。

这种学习算法直观上的解释：当有一个实例点被误分类，即位于分离超平面的错误一侧时，则调整 $w$ 和 $b$ 的值，使分离超平面向该错误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过该误分类点使其被正确分类。

四、感知机学习算法的对偶形式

$w$ 和 $b$ 每次在感知到误判的时候更好的迭代思路是
$w\leftarrow w+\eta y_ix_i$
$b\leftarrow b+\eta y_i$
想办法简化一下参数的数量，所以令 $\alpha_i=\eta n_i$ ；如果给定一个默认参数 $w_0=0$ 开始
$w_1=w_0+\eta n_1y_1x_1=0+\eta n_1y_1x_1=\alpha_1y_1x_1$
$w_2=w_1+\eta n_2y_2x_2=\alpha_1y_1x_1+\eta n_2y_2x_2=\alpha_1y_1x_1+\alpha_2y_2x_2$
以此类推，可得到
$w=\sum_{i=1}^N\alpha_iy_ix_i$
$\alpha_i$ 可迭代，设初始值为 $\alpha_i=0$ ， $\alpha_i=\eta n_i$

对偶形式的基本想法是，将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。

每迭代一次之后 $\alpha_i$ 的变动为 $\alpha_i\leftarrow \eta(n_i+1)$ ，即 $\alpha_i\leftarrow \eta(n_i+1)=\eta n_i+\eta=\alpha_i+\eta$

所以，我们的对偶问题为
$\alpha_i\leftarrow \alpha_i+\eta$
$b\leftarrow b+\eta y_i$
$b$ 与原始一样，只是将对 $w$ 的迭代，转化成了对 $\alpha$ 的迭代，因为 $\alpha$ 要简单的多，不需要考虑 $y_ix_i$ ，迭代完成求出所有的 $\alpha$ 即可求出 $w$ 。