感知机公式详细推导

原创已于 2022-09-15 14:47:27 修改 · 667 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能

于 2022-09-13 11:02:15 首次发布

机器学习专栏收录该内容

13 篇文章

订阅专栏

文章目录

1. 感知机模型
2. 感知机损失函数
3. 感知机学习算法

1. 感知机模型

假设 $x$ 表示 $n$ 维的向量， $x$ 待划分的类别 $\in \{+1,-1 \}$ ，则感知机可以表示为如下函数： $f (x) = s i g n (w x + b)$ 其中 $w, b$ 称之为感知机模型参数， $w$ 成为权值向量，其维度与 $x$ ，即输入向量的维度相同， $b$ 称为偏置， $s i g n$ 函数为符号函数，表示如下： $sign(x)=\left\{ \begin{aligned} +1 & , x \geq 0 \\ -1& , x < 0 \end{aligned} \right.$ 须知，感知机划分的平面不一定是二维的，划分的平面是几维取决于输入数据的维度。

2. 感知机损失函数

损失函数度量着我们对训练集划分准确性，在感知机模型中，很自然的一个是使用误分类点的个数来作为损失函数，但是，这样的函数并不是参数 $w, b$ 的可导函数，即使知道了误分类的点的个数，也不能使用更有效的方法来改进参数使得划分更加正确，故我们选取各点到所划分的平面的距离作为损失函数，这样就能够使用最小二乘法或者随机梯度下降法来对参数进行优化，使划分一步步优化。

输入空间任一点 $x_0$ 到划分的平面 $w x + b = 0$ 的距离如下： $s=\frac{1}{\Vert w \Vert} \vert w \cdot x_0 +b \vert$ 对于误分类的点来说，其一定满足
$-y_i(w \cdot x_i+b)>0$ 又因为 $y_i \in \{+1,-1\}$ ，所以，误分类点到平面的距离为
$-\frac{1}{\Vert w \Vert}y_i ( w \cdot x_0 +b )$ ${\Vert w \Vert}$ 是个常数，在优化时可以不考虑，这样，将所有误分类点到平面的距离加起来，就得到了感知机的损失函数：
$L(w,b)=-\sum_{i=1}^N y_i ( w \cdot x_0 +b )$

3. 感知机学习算法

对于一个数据集 $X=\{x_1,x_2, \cdots,x_n \}$ ，求其感知机模型就相当于将其损失函数最小化即可，故感知机模型的求解就变为了参数估计问题
$\mathop{min}\limits_{w,b}L(w,b)=-\sum_{i=1}^N y_i ( w \cdot x_0 +b )$ 解决该参数估计问题即可用最小二乘法，也可用随机梯度下降法，最小二乘法解方程太过麻烦，所以我在这介绍随机梯度下降法求解模型参数。

首先求 $w, b$ 两个参数的梯度，即其导数，求得如下：
$\begin{align} \nabla_wL(w,b) &= -\sum_{x_i \in X}y_ix_i \notag \\ \nabla_bL(w,b) &= -\sum_{x_i \in X}y_i \notag \end{align}$ 随机选取一个误分类点，确定一个学习率 $\eta$ ,对 $w, b$ 进行相反方向的梯度更新：
$\begin{align} w & \leftarrow w + \eta y_i x_i \notag \\ b & \leftarrow b+ \eta y_i \notag \end{align}$ 通过这样不断的迭代，最终能够将线性可分的数据集的损失函数逐渐减小，直至为 $0$ 。