李航统计学习感知机阅读笔记

最新推荐文章于 2023-03-07 11:46:10 发布

原创最新推荐文章于 2023-03-07 11:46:10 发布 · 289 阅读

0 ·

CC 4.0 BY-SA版权

statistic 专栏收录该内容

3 篇文章

订阅专栏

本文深入解析感知机模型，一种用于二类分类的线性分类器。详细介绍了感知机的数学表达，包括线性方程、超平面概念及符号函数。探讨了感知机的学习策略，如线性可分性判断、损失函数最小化及随机梯度下降法。同时，对比了感知机学习算法的原始形式和对偶形式，阐述了它们的迭代过程和收敛性。

感知机学习笔记

感知机模型

感知机是二类分类的线性分类模型,其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机将输入空间划分为正负两个超平面。
由输入空间到输出空间的函数为： $f(x)=sign(w·x+b)$

$sign$ 是符号函数

s i g n (x) = {+ 1, x \geq 0 - 1, x < 0

$sign(x)= \begin{cases} +1, \quad x \geq 0 \\ -1, \quad x<0 \end{cases}$

其假设空间定义： $\{f|f(x)=w·x+b\}$

线性方程： $w·x+b=0$ 为特征空间 $\textbf{R}^n$ 的一个超平面 $\textbf{S}$ 。 $w$ 是超平面的一个法向量。 $b$ 是超平面的截距。
超平面 $\textbf{S}$ 被称为分离超平面（seperating hyperplane）。

感知机学习策略

数据集的线性可分性

给定一个数据集：

T = {(x 1, y 1), (x 2, y 2), . . ., (x N, y N)}

$\textit{T}=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

其中， $x_i\in\textit{X}=\textbf{R}^n, y_i\in\textit{Y}=\{+1,-1\}, i=1,2,...,N$ ，如果存在超平面 $S$

w \cdot x + b = 0

$w·x+b=0$

能够将数据集的正实例和负实例点完全正确地划分在平面的两侧,则称数据集 $T$ 为线性可分数据集（linearly seperable data set）。

感知学习策略

追求损失函数极小化。
由点到平面距离公式：

\frac{1}{| | w | |} | w \cdot x_{0} + b |

$\frac{1}{||w||}|w·x_0+b|$

得到误分类点到平面的距离：

- 1 | | w | | y i | w \cdot x i + b |

$-\frac{1}{||w||}y_i|w·x_i+b|$

损失函数

在不考虑常数项下，模型的损失函数为：

L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$L(w,b)=-\sum_{x_i\in M}y_i(w·x_i+b)$ (1)

其中 $M$ 为误分类点的集合。显然，损失函数 $L(w,b)$ 是非负的，如果没有误分类点，损失函数值为0.

感知机学习算法

求损失函数极小值的问题，求参数 $w,b$ 。

感知机学习算法的原始形式

感知机学习算法是误分类驱动的，具体采用随机梯度下降法（stochastic gradient descent）.首先选取一个超平面 $w_0b_0$ ，然后用梯度下降法不断地极小化目标函数 $(1)$
假设误分类点的集合 $M$ 是固定的，那么损失函数 $L(w,b)$ 的梯度由公式

\nabla w L (w, b) = - \sum x i \in M y i x i

$\nabla_w{L(w,b)}=-\sum_{x_i \in M}y_ix_i$

\nabla b L (w, b) = - \sum x i \in M y i

$\nabla_b{L(w,b)}=-\sum_{x_i \in M}y_i$

给出。

随机给出一个误分类点 $(x_i,y_i)$ ，对 $w,b$ 进行更新：

w \leftarrow w + η y i x i

$w\gets w+\eta y_ix_i$

b \leftarrow b + η y i

$b\gets b+\eta y_i$ (2)

式中 $\eta (0<\eta \leq 1)$ 是步长，统计学习中又称为学习率（learing rate）。这样，通过迭代，可以期待损失函数 $L(w,b)$ 不断减小,直到为0.

算法的收敛性

对于线性可分数据集，感知机算法原始形式收敛。

感知机学习算法的对偶形式

基本思想：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合形式。通过求解系数而求得 $w$ 和 $b$ .

由梯度函数 $(2)$ ,假设初值 $w_0=0,b_0=0$ ， $\alpha_i=n_i\eta_i$ ，最后学到的w,b可以表示为

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^{N}\alpha_i y_ix_i$

b = \sum i = 1 N α i y i

$b=\sum_{i=1}^{N}\alpha_i y_i$

感知机模型：

f (x) = s i g n (\sum j = 1 N α i y i x i \cdot x + b)

$f(x)=sign\left(\sum_{j=1}^{N}\alpha_i y_ix_i·x+b\right)$

由 $\alpha \gets 0, b \gets 0$ 开始，选取数据集 $(y_i,x_i)$ ,如果 $y_i \left(\sum_{j=1}^{N}\alpha_i y_ix_i·x+b\right) \leq 0$ ,则

α i \leftarrow α i + η

$\alpha_i \gets \alpha_i + \eta$

b \leftarrow b + η y i

$b \gets b + \eta y_i$
直到没有误分类数据。

对偶形式中训练实例仅以内积的形式出现.为了方便，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是所谓的Gram矩阵(Gram matrix)

G = [x i \cdot y i] N \times N

$G= \begin{bmatrix} x_i·y_i \end{bmatrix} _{N \times N}$

与原始形式一样，感知机学习算法的对偶形式迭代是收敛的，存在多个解。