（一）统计学习方法 | 感知机

最新推荐文章于 2022-01-07 10:24:45 发布

zhangts20

最新推荐文章于 2022-01-07 10:24:45 发布

阅读量193

点赞数 1

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/Skies_/article/details/108635939

版权

统计学习方法专栏收录该内容

10 篇文章

订阅专栏

文章目录

1 感知机
2. Python实现感知机学习算法
3. 感知机学习算法的总结
参考

1 感知机

1.1 简介与定义

感知机是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间中将实例划分为正负两类的分离超平面，属于判别模型。感知机是支持向量机和神经网络的基础。

感知机 假设输入空间（特征空间）是 $\mathcal {X}\subseteq {\bold R}^n$ ，输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $x\in\mathcal {X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $y\in\mathcal {Y}$ 表示实例的类别。由输入空间到输出空间的如下函数： $f(x)={\rm sign}(w\cdot x+b)\tag{1}$

称为感知机。

1.2 学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。为了找出这样的超平面，即确定模型参数 $w, b$ ，需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。首先写出输入空间 ${\bold R}^n$ 中的任一点 $x_0$ 到超平面 $S$ 的距离： $\frac{1}{||w||}|w\cdot x_0+b|$

这里， $∣ ∣ w ∣ ∣$ 是 $w$ 的 $L_2$ 范数。即 $||w||=\sqrt{\sum_{i=1}^k|w_i|^2}$

其次，对于误分类点来说，满足： $-y_i(w\cdot x_i+b)>0$

误分类点 $x_i$ 到超平面 $S$ 的距离是： $-\frac{1}{||w||}y_i(w\cdot x_i+b)$

这样，假设超平面 $S$ 的误分类点集合为 $M$ ，那么所有误分类点到超平面 $S$ 的总距离为： $-\frac{1}{||w||}\sum_{x_i\in M} y_i(w\cdot x_i+b)$

如果不考虑前面常数项，上式即得到感知机学习的损失函数。即感知机学习算法是对以下最优化问题的算法。给定一个训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

其中， $x_i\in\mathcal {X}={\bold R}^n$ ， $y_i\in\mathcal {Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., N$ ，求参数 $w, b$ ，使其为以下损失函数极小化问题的解： $\min_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)\tag{2}$

1.3 感知机学习算法的原始形式

输入训练数据集 $T=\{(x_1,y_2),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in\mathcal {X}={\bold R}^n$ ， $y_i\in\mathcal {Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., N$ ；学习率 $\eta(0<\eta\leq1)$ ；

输出 $w, b$ ；感知机模型 $f(x)={\rm sign}(w\cdot x+b)$ 。

（1）选取初值 $w_0,b_0$ ；

（2）在训练集中选取数据 $x_i,y_i)$ ；

（3）如果 $y_i(w\cdot x_i+b)\leq0$ （误分类数据）， $w\leftarrow w+\eta y_ix_i$

$b\leftarrow b+\eta y_i$

（4）转至（2），直至训练集中没有误分类点。

例题设正实例点是 $x_1=(3,3)^{\rm T}$ ， $x_2=(4,3)^{\rm T}$ ，负实例点是 $x_3=(1,1)^{\rm T}$ ，使用感知机算法的原始形式求感知机模型 $f(x)={\rm sign}(w\cdot x+b)$ 。

解
（1）定义初值 $w_0=0,b_0=0$ ；

（2）对于点 $x_1=(3,3)^{\rm T}$ ，满足上式（3）中的条件则未被正确分类，更新 $w, b$ $w_1=w_0+y_1x_1=(3,3)^{\rm T},\ b_1=b_0+y_1=1$

得到线性模型 $w_1\cdot x+b_1=3x^{(1)}+3x^{(2)}+1$

（3）对于 $x_1,x_2$ ，不满足上式（3）则被正确分类，不更新参数。对于点 $x_3=(1,1)^{\rm T}$ 未被正确分类，更新 $w, b$ $w_2=w_1+y_3x_3=(2,2)^{\rm T},\ b_2=b_1+y_3=0$

得到线性模型 $w_2\cdot x+b_2=2x^{(1)}+2x^{(2)}$

如此继续下去，直到 $w_7=(1,1)^{\rm T}, b_7=-3$

$w_7\cdot x+b_7=x^{(1)}+x^{(2)}-3$

此时对于所有的数据点均分类正确，此时的损失函数达到极小。此时的分离超平面为 $x^{(1)}+x^{(2)}-3=0$

感知机模型为 $f(x)={\rm sign}(x^{(1)}+x^{(2)}-3)$

1.4 感知机学习算法的收敛性

感知机学习算法的收敛性即对于线性可分的数据集，感知机学习算法的原始形式经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。为了便于叙述和推导，将偏置 $b$ 并入权重向量 $w$ ，记作 $\hat{w}=(w^{\rm T}, b)^{\rm T}$ 。同时也将输入向量扩充为相同维度，即 $\hat{x}=(x^{\rm T}, 1)^{\rm T}$ 。这样， $\hat{x}\in {\bold R}^{n+1}$ ， $\hat{w}\in{\bold R}^{n+1}$ ；同时也满足， $\hat{w}\cdot \hat{x}=w\cdot x+b$ 。

Novikoff定理 设训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 是线性可分的，其中， $x_i\in\mathcal {X}={\bold R}^n$ ， $y_i\in\mathcal {Y}=\{+1,-1\}$ ， $i = 1, 2, . . ., N$ ，则

（1）存在满足条件的超平面 $||\hat{w}_{\rm opt}||=1$ 的超平面 $\hat{w}_{\rm opt}\cdot \hat {x}=w_{\rm opt}\cdot x+b_{\rm opt}=0$ 将训练数据集完全分开；且存在 $\gamma>0$ ，对所有 $i = 1, 2, . . ., N$ $y_i(\hat{w}_{\rm opt}\cdot \hat{x}_i)=y_i(w_{\rm opt}\cdot x_i+b_{\rm opt})\geq\gamma\tag{3}$

（2）令 $R=\max\limits_{1\leq i\leq N}||\hat{x}_i||$ ，则感知机算法在训练数据集上的误分类次数 $k$ 满足不等式 $k\leq \left(\frac{R}{r}\right)^2\tag{4}$

证明

（1）由于训练数据集是线性可分的，所以存在超平面可将训练数据集完全正确分开，取此超平面为 $\hat{w}_{\rm opt}\cdot \hat{x}_i=w_{\rm opt}\cdot x+b_{\rm opt}=0$ ，使 $||\hat{w}_{\rm opt}||=1$ 。由于对有限的 $i = 1, 2, . . ., N$ ，均有 $y_i(\hat{w}_{\rm opt}\cdot \hat{x}_i)=y_i(w_{\rm opt}\cdot x_i+b_{\rm opt})>0$

所以存在 $\gamma=\min_i\{y_i(w_{\rm opt}\cdot x_i+b_{\rm opt})\}$

使 $y_i(\hat{w}_{\rm opt}\cdot \hat{x}_i)=y_i(w_{\rm opt}\cdot x_i+b_{\rm opt})\geq\gamma$

（2）感知机算法从 $\hat{w}_0=0$ 开始，如果实例被误分类，则更新权重。令 $\hat{w}_{k-1}$ 是第 $k$ 个误分类实例之前的扩充权重向量，即 $\hat{w}_{k-1}=(w_{k-1}^{\rm T},b_{k-1})^{\rm T}$

则第 $k$ 个误分类实例的条件是 $y_i(\hat{w}_{k-1}\cdot \hat{x}_i)=y_i(w_{k-1}\cdot x_i+b_{k-1})\leq 0\tag{5}$

若 $x_i,y_i)$ 是被 $\hat{w}_{k-1}=(w_{k-1}^{\rm T},b_{k-1})^{\rm T}$ 误分类的数据，则 $w$ 和 $b$ 的更新是 $w_k\leftarrow w_{k-1}+\eta y_ix_i$

$b_k\leftarrow b_{k-1}+\eta y_i$

即 $\hat{w}_k=\hat{w}_{k-1}+\eta y_i\hat{x}_i\tag{6}$

先证明以下两个式子 $\hat{w}_k\cdot \hat{w}_{\rm opt}\geq k\eta\gamma$

上式推导过程如下，根据式（6）和式（3） $\begin{aligned} \hat{w}_k\cdot \hat{w}_{\rm opt}&=\hat{w}_{k-1}\cdot \hat{w}_{\rm opt}+\eta y_i\hat{w}_{\rm opt}\cdot \hat{x}_i \\ &\geq \hat{w}_{k-1}\cdot \hat{w}_{\rm opt}+\eta\gamma \end{aligned}$

然后将上式递推得到 $\hat{w}_k\cdot \hat{w}_{\rm opt}\geq \hat{w}_{k-1}\cdot \hat{w}_{\rm opt}+\eta\gamma\geq \hat{w}_{k-2}\cdot \hat{w}_{\rm opt}+2\eta\gamma\geq...\geq kn\gamma$

证毕。再证明以下式子 $||\hat{w}_k||^2\leq k\eta^2R^2$

由上面等式，根据式（6）和式（5） $\begin{aligned} ||\hat{w}_k||^2&=||\hat{w}_{k-1}||^2+2\eta y_i\hat{w}_{k-1}\cdot \hat{x}_i+\eta^2||\hat{x}_i||^2 \\ &\leq ||\hat{w}_{k-1}||^2+\eta^2||\hat{x}_i||^2 \\ &\leq ||\hat{w}_{k-1}||^2+\eta^2R^2 \\ & \leq ||\hat{w}_{k-2}||^2+2\eta^2R^2\leq ... \\ &\leq k\eta^2R^2 \end{aligned}$

即得到 $k\eta\gamma\leq\hat{w}_k\cdot \hat{w}_{\rm opt}\leq||\hat{w}_k||\ \ ||\hat{w}_{\rm opt}||\leq\sqrt{k}\eta R$

$k^2\gamma^2\leq kR^2$

于是 $k\leq\left(\frac{R}{\gamma}\right)^2$

通过上面两式得到，误分类次数 $k$ 是有上界的，经过有限次搜索就可以找到将训练数据集完全正确分开的分离超平面。

1.5 感知机学习算法的对偶形式

对偶形式的基本想法是，将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。不失一般性，在感知机算法的原始形式中将初始值均设置为0，对误分类点 $x_i,y_i)$ 通过 $w\leftarrow w+\eta y_ix_i$

$b\leftarrow b+\eta y_i$

逐步修改 $w$ 和 $b$ ，则 $w$ 和 $b$ 关于 $x_i,y_i)$ 的增量分别是 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ， $\alpha_i=\eta_i\eta$ 。这样，由学习的过程可以得到，最后学习到的 $w$ 和 $b$ 可以分别表示为 $w=\sum_{i=1}^N\alpha_iy_ix_i$

$b=\sum_{i=1}^N\alpha_iy_i$

这里， $\alpha_i\geq0,i=1,2,...,N$ 。当 $\eta=1$ 时，表示第 $i$ 个实例点由于误分而进行更新的次数。实例点更新次数越多，意味着它距离分离超平面更近，也就越难正确分类。

输出 $\alpha,b$ ；感知机模型 $f(x)={\rm sign}(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)$ ，其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^{\rm T}$

（1） $\alpha\leftarrow0,b\leftarrow0$ ；

（2）在训练集中选取数据 $x_i,y_i)$ ；

（3）如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)\leq0$ ， $\alpha_i\leftarrow\alpha_i+\eta$

$b\leftarrow b+\eta y_i$

（4）转至（2），直至训练集中没有误分类点。

对偶形式中训练实例仅以内积的形式出现。为了方便计算过程，可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是 ${\rm Gram}$ 矩阵 $G=[x_i\cdot y_i]_{N×N}$

对于上述例题，使用感知机学习算法的对偶形式。

解
（1）取 $\alpha_i=0,i=1,2,3,b=0,\eta=1$ ；

（2）计算 ${\rm Gram}$ 矩阵 $G=\left[ \begin{matrix} 18 & 21 & 6\\ 21 & 25 & 7\\ 6 & 7 & 2 \end{matrix} \right]$

（3）误分条件 $y_i\left(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b\right)\leq0$

参数更新
$\alpha_i\leftarrow\alpha_i+1, b\leftarrow b+y_i$

（4）迭代；

（5）结果 $w=2x_1+0x_2-5x_3=(1,1)^{\rm T}$

$b = - 3$

分离超平面 $x^{(1)}+x^{(2)}-3=0$

感知机模型 $f(x)={\rm sign}(x^{(1)}+x^{(2)}-3)$

2. Python实现感知机学习算法

以mnist数据为例实现感知机学习算法的原始形式。首先将下载的数据集解压并转化成csv格式：

def convert(images, labels, out, n):
    # 图像文件
    img = open(images, "rb")
    # 标注文件
    bel = open(labels, "rb")
    # 输出文件
    out = open(out, "w")
    # 指定读入字节数
    img.read(16)
    bel.read(8)
    # 创建列表存放结果
    images = []
    # 读取内容
    for i in range(n):
        # ord函数返回对应字符的ASCII码
        image = [ord(bel.read(1))]
        for j in range(28 * 28):
            image.append(ord(img.read(1)))
        images.append(image)
    # 写入输出文件
    for image in images:
        out.write(",".join(str(pix) for pix in image) + "\n")
    # 关闭文件
    img.close()
    bel.close()
    out.close()

可以使用以下函数查看csv文件内容：

# 读取csv文件，在train.csv中一共包含60000行，28*28+1列
def read_csv(file):
    with open(file) as f:
        reader = csv.reader(f)
        for row in reader:
            # index ['x','x',...,'x']
            # ......
            print(reader.line_num, row)
    f.close()

感知机算法，首先将数据集转化成算法输入格式：

def load_data(file):
    # 定义空列表
    dataArr = []
    labelArr = []
    # 打开并处理文件
    with open(file, "r") as f:
        lines = f.readlines()
        for line in lines:
            # 针对csv文件格式，使用','分割数据
            curLine = line.strip().split(',')
            # 感知机算法是一个二分类算法，定义0-4为-1、5-9为+1
            # csv文件第一列存放着具体类别
            if int(curLine[0]) < 5:
                labelArr.append(-1)
            else:
                labelArr.append(1)
            # 处理具体数据，除以255归一化
            dataArr.append([int(num) / 255 for num in curLine[1:]])
        # 返回
        return dataArr, labelArr

定义感知机的主体函数：

def perceptron(dataArr, labelArr, iteration=50):
    # 转换训练数据格式为矩阵
    # dataMat形状为(rows,cols)
    dataMat = np.mat(dataArr)
    # labelMat形状为(1,rows)
    labelMat = np.mat(labelArr).T
    # 获取矩阵大小
    rows, cols = np.shape(dataMat)
    # 初始化参数
    # w形状为(1,cols)，b的运算使用广播机制,η
    w = np.zeros((1, np.shape(dataMat)[1]))
    b = 0
    h = 0.001
    # 迭代训练
    for it in range(iteration):
        for i in range(rows):
            # 获取当前训练数据和标签
            x = dataMat[i]
            y = labelMat[i]
            # 如果是误分类样本，则计算损失和更新参数
            if y * (w * x.T + b) <= 0:
                w = w + h * y * x
                b = b + h * y
        # 打印迭代进度及Loss
        print("Iteration: [{}] / [{}]".format(it, iteration))
    # 返回w和b
    return w, b

基于训练集得到的 $w$ 和 $b$ 在测试集上的表现：

def test(dataArr, labelArr, w_value, b_value):
    # 转换训练数据格式为矩阵
    # dataMat形状为(rows,cols)
    dataMat = np.mat(dataArr)
    # labelMat形状为(1,rows)
    labelMat = np.mat(labelArr).T
    # 获取矩阵大小
    rows, cols = np.shape(dataMat)
    # 统计错误样本数
    errorCnt = 0
    # 遍历测试样本
    for i in range(rows):
        # 获取当前数据和标签
        x = dataMat[i]
        y = labelMat[i]
        # 获得计算结果
        result = y * (w_value * x.T + b_value)
        if 0 >= result:
            errorCnt += 1
    # 计算正确率
    acc = 1 - (errorCnt / rows)
    # 返回准确率
    return acc

3. 感知机学习算法的总结

感知机是一种二分类模型，同时它包含了后面大多数优化算法的雏形，如支持向量机、深度神经网络等：定义损失函数，利用梯度下降法等优化方法对损失函数极小化以求得最终的模型参数。感知机最早在1957年由Rosenblatt提出。Novikoff，Minsky与Papert等人对感知机进行了一系列理论研究。感知机的扩展学习方法包括口袋算法、表决感知机、带边缘感知机等。