统计学习方法第二章感知机公式推导_f(x)=sign()是什么意思-优快云博客

本文链接：https://blog.youkuaiyun.com/hbkybkzw/article/details/125923322

第二章感知机模型(Perceptron)

感知机相关定义

定义 2.1 (感知机) 假设输入空间（特征空间) 是 $\mathcal{X} \subseteq \mathbf{R}^{n}$ , 输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $\in \mathcal{X}$ 表示实例的特征向量, 对应于输入空间（特征空间）的点; 输出 $\in \mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数:
$f(x)=\operatorname{sign}(w \cdot x+b)$
称为感知机。其中, $w$ 和 $b$ 为感知机模型参数, $\in \mathbf{R}^{n}$ 叫作权值(weight) 或权值向量 (weight vector), $\in \mathbf{R}$ 叫作偏置 (bias), $\cdot x$ 表示 $w$ 和 $x$ 的内积。 $\operatorname{sign}$ 是符号函数, 即
$\operatorname{sign}(x)=\left\{\begin{array}{cc} +1, & x \geqslant 0 \\ -1, & x<0 \end{array}\right.$
感知机是一种线性分类模型, 属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型（linear classification model）或线性分类器（linear classifier）, 即函数集合 $\{f \mid f(x)=w \bullet x+b\}$ 。
定义 2.2 (数据集的线性可分性) 给定一个数据集
$\begin{aligned} T& = \left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} \\ & = \left\{ (x_i,y_i)\right\}_{i=1}^N \end{aligned}$
其中, $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, y_{i} \in \mathcal{Y}=\{+1,-1\}, i=1,2, \cdots, N$ , 如果存在某个超平面 $S$
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧, 即对所有 $y_{i}=+1$ 的实例 $i$ , 有 $\cdot x_{i}+b>0$ , 对所有 $y_{i}=-1$ 的实例 $i$ , 有 $\cdot x_{i}+b<0$ , 则称数据集 $T$ 为线性可分数据集 ( linearly separable data set ); 否则, 称数据集 $T$ 线性不可分。
损失函数：

误分类点到超平面的距离为感知机学习算法的损失函数，感知机学习算法是误分类点驱动的
1. 任意一点 $\left(x_{i}, y_{i}\right)$ 到超平面距离：
  $\frac{1}{\|w\|}\left|w \cdot x_{0}+b\right|$
  其中 $\|w\|$ 是 w 的2范数
  $\|w\| = \sqrt{\sum\limits_{i=1}^N}{w_i^2}$
2. 误分类点到超平面距离：
  
  对于误分类的数据 $\left(x_{i}, y_{i}\right)$ 来说,
  $-y_{i}\left(w \cdot x_{i}+b\right)>0$
  成立。因为当 $\cdot x_{i}+b>0$ 时, $y_{i}=-1$ ; 而当 $\cdot x_{i}+b<0$ 时, $y_{i}=+1$ 。因此, 误分类点 $x_{i}$ 到超平面 $S$ 的距离是
  $-\frac{1}{\|w\|} y_{i}\left(w \cdot x_{i}+b\right)$
  这样, 假设超平面 $S$ 的误分类点集合为 $M$ , 那么所有误分类点到超平面 $S$ 的总距离为
  $-\frac{1}{\|w\|} \sum_{x, \subset M} y_{i}\left(w \cdot x_{i}+b\right)$
3. 损失函数
  
  $\|w\|$ 是常数，不考虑，则感知机损失函数
  $\sum_{x, \subset M} y_{i}\left(w \cdot x_{i}+b\right)$
  其为 $M$ 为误分类点集合

原始形式

算法 2.1 (感知机学习算法的原始形式)
输入: 训练数据集 $T=\left\{ (x_i,y_i)\right\}_{i=1}^N$ , 其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, y_{i} \in$ $\mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$ ; 学习率 $\eta(0<\eta \leqslant 1)$ ;
输出: $w, b$ ; 感知机模型 $f(x)=\operatorname{sign}(w \cdot x+b)$ 。
(1) 选取初值 $w_{0}, b_{0}$ ;
(2) 在训练集中选取数据 $\left(x_{i}, y_{i}\right)$ ;
(3) 如果 $y_{i}\left(w \cdot x_{i}+b\right) \leqslant 0$ ,使用随机梯度下降更新如下
$\begin{aligned} w \leftarrow w+\eta y_{i} x_{i}\quad(控制旋转) \\ b \leftarrow b+\eta y_{i} \quad\quad(控制平移) \end{aligned}$
(4) 转至 (2), 直至训练集中没有误分类点。
梯度下降求解
$\begin{aligned} \min_{w,b} L(w,b) & = - \sum_{x, \subset M} y_{i}\left(w \cdot x_{i}+b\right)\\ \Rightarrow \quad \nabla_wL(w,b) & = \frac{\partial L(w,b)}{\partial w} = - \sum_{x, \subset M} y_i x_i \\ \nabla_b L(w,b) & = \frac{\partial L(w,b)}{\partial b} = - \sum_{x, \subset M} y_i \\ \end{aligned}$

因为负梯度方向是函数降速最快的方向，所以更新时用的是负梯度，那么w，b更新为

$\begin{aligned} w\quad \leftarrow \quad w - (\eta \cdot \nabla_wL(w,b) )& = w - \eta \cdot (- \sum_{x, \subset M} y_ix_i) \\ b\quad \leftarrow \quad b - (\eta \cdot \nabla_bL(w,b) )& = b - \eta \cdot (- \sum_{x, \subset M} y_i) \\ \Rightarrow \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \quad w \quad& \leftarrow \quad w +\eta \cdot \sum_{x, \subset M} y_ix_i \\ b \quad& \leftarrow \quad b +\eta \cdot \sum_{x, \subset M} y_i \end{aligned}$
因为梯度下降每次更新需要计算所有点，时间空间耗费大，所以感知机算法使用的是随机梯度下降，即从初始开始每次只去一个点进行更新，所以更新公式为
$\begin{aligned} \Rightarrow \quad \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad \quad w \quad& \leftarrow \quad w +\eta \cdot \sum_{x, \subset M} y_ix_i \\ b \quad & \leftarrow \quad b +\eta \cdot \sum_{x, \subset M} y_i \end{aligned}$

对偶形式

算法 2.2 (感知机学习算法的对偶形式)
输入: 线性可分的数据集 $T=\left\{ (x_i,y_i)\right\}_{i=1}^N$ , 其中 $x_{i} \in \mathbf{R}^{n}, y_{i} \in$ $\{-1,+1\}, i=1,2, \cdots, N$ ; 学习率 $\eta(0<\eta \leqslant 1)$ ;
输出: $\alpha, b$ ; 感知机模型 $f(x)=\operatorname{sign}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x+b\right)$ , 其中 $\alpha=$ $\left(\alpha_{1}, \alpha_{2}, \cdots, \alpha_{N}\right)^{\mathrm{T}}$
(1) $\alpha \leftarrow 0, b \leftarrow 0$
(2) 在训练集中选取数据 $\left(x_{i}, y_{i}\right)$ ;
(3) 如果 $y_{i}\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j} \cdot x_{i}+b\right) \leqslant 0$ ,
$\begin{aligned} \alpha_{i}& \leftarrow & \alpha_{i}+\eta \\ b &\leftarrow& b+\eta y_{i} \end{aligned}$
(4) 转至 (2) 直到没有误分类数据。
GRAM矩阵

对偶形式中训练实例仅以内积的形式出现，可预先将训练集中实例之间的内积计算出来并一矩阵形式存储，这个矩阵就是GRAM矩阵，具体形式为n维欧式空间中任意个向量的内积所组成的矩阵

设 $X$ 为特征矩阵， $X=({x}_{1} , {x}_{2} , \cdots ,{x}_{n})^T$
$\begin{aligned} G&=\left[x_{i} \cdot x_{j}\right]_{N \times N} \\ &=X^{T} X\\ &=\left[\begin{array}{c} {x}_{1}^{T} \\ {x}_{2}^{T} \\ \vdots \\ {x}_{n}^{T} \end{array}\right]\left[\begin{array}{llll} {x}_{1} & {x}_{2} \cdots & {x}_{n} \end{array}\right]\\ &=\left[\begin{array}{cccc} {x}_{1}^{T} {x}_{1} & {x}_{1}^{T} {x}_{2} & \cdots & {x}_{1}^{T} {x}_{n} \\ {x}_{2}^{T} {x}_{1} & {x}_{2}^{T} {x}_{2} & \cdots & {x}_{2}^{T} {x}_{n} \\ {x}_{n}^{T} {x}_{1} & {x}_{n}^{T} {x}_{2} & \cdots & {x}_{n}^{T} {x}_{n} \end{array}\right] \end{aligned}$
对偶形式的基本想法是, 将 $w$ 和 $b$ 表示为实例 $x_{i}$ 和标记 $y_{i}$ 的线性组合的形式, 通过求解其系数而求得 $w$ 和 $b$ 。不失一般性, 在算法 $2.1$ 中可假设初始值 $w_{0}, b_{0}$ 均为 0 。对误分类点 $\left(x_{i}, y_{i}\right)$ 通过
$\begin{aligned} w &\leftarrow w+\eta y_{i} x_{i} \\ b &\leftarrow b+\eta y_{i} \end{aligned}$
逐步修改 $w, b$ , 设修改 $n$ 次, 则 $w, b$ 关于 $\left(x_{i}, y_{i}\right)$ 的增量分别是
$\alpha_{i} y_{i} x_{i}$

和
$\alpha_{i} y_{i}$

,这里 $\alpha_{i}=n_{i} \eta$ . 这样, 从学习过程不难看出, 最后学习到的 $w, b$ 可以分别表示为
$\begin{gathered} w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ b=\sum_{i=1}^{N} \alpha_{i} y_{i} \end{gathered}$
这里, $\alpha_{i} \geqslant 0, i=1,2, \cdots, N$ , 当 $\eta=1$ 时, 表示第 $i$ 个实例点由于误分而进行更新的次数。实例点更新次数越多, 意味着它距离分离超平面越近, 也就越难正确分类。换句话说, 这样的实例对学习结果影响最大。

算法的收敛性

对于线性可分数据集感知机学习算法原始形式收敛, 经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型,即对于线性可分数据集，感知机学习算法一定可以得到一个存在的超平面 $w x + b = 0$ 可以把训练集完全分开，其中的 $w$ 记为 $w_{opt}$ , $b$ 记为 $b_{opt}$ ,则分离超平面为
$w_{opt}x+b_{opt}=0$
将偏置 $b$ 并入权重向量 $w=(w_1,w_2,...,w_n)$ (行向量), 记作
$\begin{aligned} \hat{w}&=\left(w^{\mathrm{T}}, b\right)^{\mathrm{T}} \\ &= (w_1,w_2,...,w_n,b) \end{aligned}$
同样也将输入向量 $x=(x_1,x_2,...,x_n)^T$ (列向量)加以扩充, 加进常数 1 , 记作
$\begin{aligned} \hat{x}&=&\left(x^{\mathrm{T}}, 1\right)^{\mathrm{T}} \\ &=&(x_1,x_2,...,x_n,1)^T \end{aligned}$
综合
$\left\{ \begin{aligned} \hat{w}&=\left(w^{\mathrm{T}}, b\right)^{\mathrm{T}} \\ \hat{x}&=\left(x^{\mathrm{T}}, 1\right)^{\mathrm{T}}\\ \end{aligned} \right.$

这样, $\hat{x} \in \mathbf{R}^{n+1}, \hat{w} \in \mathbf{R}^{n+1}$ 。显然 $\hat{w} \cdot \hat{x}=w \cdot x+b$
定理 2.1 (Novikoff) 设训练数据集 $T=\left\{ (x_i,y_i)\right\}_{i=1}^N$ 是线性可分的, 其中 $x_{i} \in \mathcal{X}=\mathbf{R}^{n}, y_{i} \in \mathcal{Y}=\{-1,+1\}, i=1,2, \cdots, N$ , 则
(1) 存在满足条件 $\left\|\hat{w}_{\mathrm{opt}}\right\|=1$ 的超平面 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ 将训练数据集完全正确分开; 且存在 $\gamma>0$ , 对所有 $\cdots, N$
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma$
(2) 令 $R=\max _{1 \leqslant i \leqslant N}\left\|\hat{x}_{i}\right\|$ , 则感知机算法 $2.1$ 在训练数据集上的误分类次数 $k$ 满足不等式
$\leqslant\left(\frac{R}{\gamma}\right)^{2}$
定理证明：

(1)、因为训练数据集是线性可分，所以存在 $\left\|\hat{w}_{\mathrm{opt}}\right\|=1$ 的超平面 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}=w_{\mathrm{opt}} \cdot x+b_{\mathrm{opt}}=0$ 可将训练数据集完全正确分开, 那么对于任意样本实例 $X_i$ , $\cdots, N$ , 均有
$y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right)>0$
所以存在
$\begin{aligned} \gamma&=\min _{i}\left\{ \hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i} \right\}\\ &=\min _{i}\left\{y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right)\right\} \end{aligned}$
即 $\gamma$ 为所有实例中 $\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}$ 最小的，有
$\begin{aligned} y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)&=y_{i}\left(w_{\mathrm{opt}} \cdot x_{i}+b_{\mathrm{opt}}\right) \geqslant \gamma \\ \Rightarrow y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)&\geq \gamma \end{aligned}$

(2)、感知机算法从 $\hat{w}_{0}=0$ 开始, 如果实例被误分类, 则更新权重。令 $\hat{w}_{k-1}$ 是第 $k$ 个误分类实例之前的扩充权重向量, 即
$\hat{w}_{k-1}=\left(w_{k-1}^{\mathrm{T}}, b_{k-1}\right)^{\mathrm{T}}$
则第 $k$ 个误分类实例的条件是
$y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leqslant 0$
若 $\left(x_{i}, y_{i}\right)$ 是被 $\hat{w}_{k-1}=\left(w_{k-1}^{\mathrm{T}}, b_{k-1}\right)^{\mathrm{T}}$ 误分类的数据, 则 $w$ 和 $b$ 的更新是
$\left\{ \begin{aligned} w_{k} &\leftarrow w_{k-1}+\eta y_{i} x_{i} \\ b_{k} &\leftarrow b_{k-1}+\eta y_{i} \end{aligned} \right.$
即
$\left\{ \begin{aligned} w_{k} &\leftarrow w_{k-1}+\eta y_{i} x_{i} \\ b_{k} &\leftarrow b_{k-1}+\eta y_{i}\\ \hat{w}&=\left(w^{\mathrm{T}}, b\right)^{\mathrm{T}} \\ \hat{x}&=\left(x^{\mathrm{T}}, 1\right)^{\mathrm{T}}\\ \end{aligned}\right. \\ \begin{aligned} \Rightarrow \quad \hat{w}_k \quad &= \left(w_k^{\mathrm{T}}, b_k\right)^{\mathrm{T}} \\ &=\left( (w_{k-1}+\eta y_ix_i)^T,(b_{k-1},\eta y_i) \right)^T \\ &=\left( (w_{k-1}^T+\eta y_ix_i^T),(b_{k-1},\eta y_i) \right)^T\\ &=\left( (w_{k-1}^T,b_{k-1})+(\eta y_ix_i^T,\eta y_i) \right)^T \\ &=\left( (w_{k-1}^T,b_{k-1})+\eta y_i\cdot(x_i^T,1) \right)^T \\ &=(w_{k-1}^T,b_{k-1})^T+\eta y_i\cdot(x_i^T,1)^T \\ &=\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i} \end{aligned}$
下面推导两个不等式
1. $\hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} \geqslant k \eta \gamma$
  $\begin{aligned} \hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} &=\hat{w}_{k-1} \cdot \hat{w}_{\mathrm{opt}}+\eta y_{i} \hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i} \\ \end{aligned}$
  由于
  $y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right)\geq \gamma$
  所以
  $\begin{aligned} \hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} &=\hat{w}_{k-1} \cdot \hat{w}_{\mathrm{opt}}+\eta y_{i} \hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i} \\ & \geqslant \hat{w}_{k-1} \cdot \hat{w}_{\mathrm{opt}}+\eta \gamma \\ &\geqslant \hat{w}_{k-2} \cdot \hat{w}_{\mathrm{opt}}+2 \eta \gamma \\ &\geqslant \cdots \\ &\geqslant k \eta \gamma \end{aligned}$
2. $\left\|\hat{w}_{k}\right\|^{2} \leqslant k \eta^{2} R^{2}$
  $\left\{ \begin{aligned} \gamma &\leq y_{i}\left(\hat{w}_{\mathrm{opt}} \cdot \hat{x}_{i}\right) \\ \hat{w}_k &= \hat{w}_{k-1}+\eta y_{i} \hat{x}_{i} \\ \|a+b\|^2 &= (a+b)^T\cdot(a+b)\\ &= \|a\|^2+2ab+\|b\|^2 \\ R &= \max_{1\leq i\leq n} \|x \hat{x}_i\| \end{aligned}\right. \\ \begin{aligned} \Rightarrow \quad \quad \quad \quad \left\|\hat{w}_{k}\right\|^{2} &=\|\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\|^2 \\ &=\left\|\hat{w}_{k-1}\right\|^{2}+2 \eta y_{i} \hat{w}_{k-1} \cdot \hat{x}_{i}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \\ \\ &\because y_i \isin \{-1,1\},对误分类点，y_i=-1,\therefore 2 \eta y_{i} \hat{w}_{k-1} \cdot \hat{x}_{i} < 0 \\ \\ & \leqslant\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2}\left\|\hat{x}_{i}\right\|^{2} \\ & \leqslant\left\|\hat{w}_{k-1}\right\|^{2}+\eta^{2} R^{2} \\ & \leqslant\left\|\hat{w}_{k-2}\right\|^{2}+2 \eta^{2} R^{2} \\ &\leqslant \cdots \\ & \leqslant k \eta^{2} R^{2} \end{aligned}$
结合这两个不等式
$\left\{ \begin{aligned} \hat{w}_{k} \cdot \hat{w}_{\mathrm{opt}} &\geqslant k \eta \gamma \\ \left\|\hat{w}_{k}\right\|^{2} &\leqslant k \eta^{2} R^{2} \\ 柯西不等式:\alpha \cdot \beta &\leq \|\alpha\| \cdot \|\beta\| \end{aligned}\right. \\ \begin{aligned} \Rightarrow \quad\quad\quad\quad k \eta \gamma &\leqslant \hat{w}_{k} \cdot \hat{w}_{\text {opt }} \\ &\leqslant \left\|\hat{w}_{k}\right\|\left\|\hat{w}_{\text {opt }}\right\| \\ & = \|\hat{w}_{k}\| \\ &\because \|\hat{w}_{\text {opt }}\| = 1,为了得到唯一超平面 \\ \Rightarrow \quad\quad\quad\quad k \eta \gamma &= \|\hat{w}_{k}\| \\ & \leqslant \sqrt{k\eta^2R^2} \\ \Rightarrow \quad\quad\quad\quad k &\leqslant\left( \frac{R}{\gamma} \right)^2 \end{aligned}$
证明完毕
定理表明, 误分类的次数 $k$ 是有上界的, 经过有限次搜索可以找到将训练数据完全正确分开的分离超平面。也就是说, 当训练数据集线性可分时, 感知机学习算法原始形式迭代是收敛的，这里只证明原始形态的算法收敛性，与原始形态一样，对偶形式迭代也是收敛的，也存在多个解。但是感知机学习算法存在许多解, 这些解既依赖于初值的选择, 也依赖于迭代过程中误分类点的选择顺序。为了得到唯一的超平面, 需要对分离超平面增加约束条件（比如约束平面法向量模长为1 $\|\hat{w}_{opt}\| = 1$ ）。当训练集线性不可分时, 感知机学习算法不收敛, 迭代结果会发生震荡。