感知器、感知器对偶形式（含作业）||《统计学习方法》李航_第1章_蓝皮（学习笔记）

最新推荐文章于 2025-08-08 12:28:40 发布

原创最新推荐文章于 2025-08-08 12:28:40 发布 · 667 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#感知器

统计学习方法专栏收录该内容

3 篇文章

订阅专栏

博客介绍了感知器，它是神经网络和SVM的基础。阐述了原始版算法，采用随机梯度下降法更新w、b，实验表明w、b初始化及样本顺序影响收敛速度，结果不唯一。还介绍了对偶形式，将w、b表示成xi、yi的线性组合，对偶形式利于计算、推导，可简化问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第2章感知机学习算法

感知器

依旧只记录重要的

感知器

感知器是神经网络和SVM的基础。

原始版算法（含作业）

先记录一下优化函数：
$\min \limits_{w,b}-\sum\limits_{x_{i\in M}}{y_i(w·x_i+b)}$
优化算法是随机梯度下降法（SGD）：每次只用一个样本来跟新 $w, b$ 。
具体算法：在这里插入图片描述
重点：该算法是当训练集中没有误分类点时结束。
结论：作业在这里根据我做的实验 Matlab感知器实现可知

算法中 $w, b$ 初始化以及样本顺序会影响网络收敛速度
算法结果不唯一
较优的超平面可以通过平均法来求得
离群点会影响感知器的性能，也就是说，当数据线性可分时，感知器表现较好，反之，则不然。

对偶形式

感知器的对偶形式是：将 $w, b$ 表示成 $x_i,y_i$ 的线性组合，再求解系数，进而求得 $w, b$ 。
在这里插入图片描述
重点：对于梯度，会因为 $x_i$ 而修改 $n_i$ 次，所以 $n_i$ 是针对不同样本而不同的。 $n_i$ 越大，说明超平面因这个 $x_i$ 修改的次数越多，说明这个 $x_i$ 越难分类。

对偶形式算法

在这里插入图片描述
确实感觉 $w, b$ 就是所有样本的线性组合。。

看"对偶形式"那里，不懂为什么要弄个对偶形式出来。查了资料，

每一个线性规划问题都伴随有另一个线性规划问题,称为对偶问题.原来的线性规划问题则称为原始线性规划问题,简称原始问题.对偶问题有许多重要的特征,它的变量能提供关于原始问题最优解的许多重要资料,有助于原始问题的求解和分析.对偶问题与原始问题之间存在着下列关系：
①目标函数对原始问题是极大化,对对偶问题则是极小化.
②原始问题目标函数中的收益系数是对偶问题约束不等式中的右端常数,而原始问题约束不等式中的右端常数则是对偶问题中目标函数的收益系数.
③原始问题和对偶问题的约束不等式的符号方向相反.
④原始问题约束不等式系数矩阵转置后即为对偶问题的约束不等式的系数矩阵.
⑤原始问题的约束方程数对应于对偶问题的变量数,而原始问题的变量数对应于对偶问题的约束方程数.
⑥对偶问题的对偶问题是原始问题,这一性质被称为原始和对偶问题的对称性.
支持向量机的二次规划问题,如果转化为对偶问题,会将其求解问题简化.简化的道理,通过对偶理论就可以知道.例如,支持向量机的最大化分类间隔,可以通过对偶问题转为min形式.
总之,对偶形式有很多的优点,利于计算,方便推导等等.

总的来说，是为了简化问题，方便求解的。（具体可能要参考凸优化，#TODO）
《统计学习方法》第1版的参考附录C就写了对偶问题以及解决方法。。看到第6章才看到。。