统计学习方法笔记——第二章感知机（1）

MLearner

于 2018-04-10 10:59:12 发布

阅读量261

点赞数

文章标签：统计机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/baidu_41304732/article/details/79868212

版权

本文介绍了感知机这一二分类线性模型的基本概念，包括其形式化定义与几何解释。进一步探讨了感知机的学习策略，如何通过最小化损失函数来找到最佳的分类超平面，并详细解析了感知机学习算法的原始形式与对偶形式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.1 基本概念

感知机是一个二分类的线性分类模型，输入为特征向量，输出为对该特征向量的预测类别，取1或者-1。

感知机的形式化定义：

其中：①sign（x）为符号函数，若x≥0，则函数值为1，否则为-1；

②wx+b中，w叫权值向量，b叫偏置值，wx+b=0称为感知机的分离超平面。如在二维坐标系中，wx+b=0代表一条直线，将平面分成两部分，在三维空间中，wx+b=0代表一个平面，将三维空间分成两部分。

1.2 感知机的学习策略

线性可分：对于一个数据集，若存在一个分离超平面，能将其中所有的正类和负类正确地划分到该超平面的两侧，则称该数据集是线性可分的，否则称线性不可分。

假设现在有一个线性可分的数据集，感知机学习的过程实际上就是找到这样一个分离超平面，即确定wx+b=0中的参数向量w和参数b。要确定这两个参数，就要制定一个学习策略，即定义一个损失函数，并将该函数极小化。

考虑到要保证损失函数的连续可导性，故选择误分类点到超平面的总距离作为感知机的损失函数。对于任意一个误分类点（x，y），若y=1，则wx+b必定小于0；若y=-1，则wx+b必定大于0。换句话说，y和（wx+b）必然异号，即

而任意一个误分类点到分离超平面的距离为

其中w为向量，b为标量。考虑点到直线，点到平面的距离公式，本质上都是这一个。

故所有误分类点到分离超平面的距离为

（其中M为所有误分类点的集合）

我们希望做的是找出w和b，使得该式的值为0，即所有的点都分类正确，M为空集，等价于优化该式的分子为0，故得出了感知机的损失函数如下

1.3 感知机学习算法的原始形式

感知机学习算法是误分类数据驱动的，目的是极小化损失函数，实际上若已知数据集线性可分，则损失函数必定能极小化为0。具体采用随机梯度下降法来优化参数w和b，分别对w和b求偏导，得出梯度方向

参数更新

其中叫做学习速率，相当于决定了方向以后，一步要向这个方向迈出的距离。

算法流程如下

1.4 感知机学习算法的对偶形式

在原始形式中通过如下方法调整参数的梯度

对于w，相当于在初始的w0的基础上加上了若干个，i=1，2，3，......，b同理。因此，最后学习到的w和b可以分别表示为

（其中，是的若干整数倍）

因此，对偶形式的感知机学习算法为

相当于把w改写为x，y的线性组合，通过学习算法求出组合系数，再通过组合系数将参数w和b分别求出来。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。