Python手撸机器学习系列（一）：感知机（附原始形式和对偶形式Python实现代码）

锌a

已于 2022-03-22 17:39:14 修改

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：计算机视觉：从0基础开始的奋斗历程机器学习文章标签：神经网络机器学习深度学习

于 2021-10-13 16:02:18 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43601378/article/details/120745718

计算机视觉：从0基础开始的奋斗历程同时被 2 个专栏收录

35 篇文章

订阅专栏

机器学习

22 篇文章

订阅专栏

感知机

1.感知机的定义

感知机是二分类的线性模型，是神经网络和SVM的基础。输入特征 $x \in X$ ，输出 $y = \{+1 , -1\}$

那么感知机算法可以表示为 $f (x) = s i g n (w \cdot x + b)$ ，相当于一个简单的线性函数

其中 $\begin{cases} +1, & \text {if a$\geq$0} \\ -1, & \text{if a<0} \end{cases}$

数据的线性可分性：存在 $w \cdot x + b = 0$ 能将数据集中的正负样本分开。说人话就是能找到一条直线将两组不同的点分开。

在这里，感知机的数据集假设为线性可分的，即表示在一堆坐标点中，总能找到一条线将正副样本给分开，并且一般能找到多条线满足要求，如下图所示。

请添加图片描述

2.感知机原始形式

2.1 损失函数

损失函数若选取误分类点的个数，则对于 $w$ 和 $b$ 而言不连续可导，不易优化

所以，选取误分类点到超平面S的总距离作为损失函数，即 $−1∣∣w∣∣∑xi∈Myi(w⋅xi+b)-\frac{1}{||w||}\displaystyle\sum_{x_i∈M}y_i(w·x_i+b)$ ，最终不考虑 $1∣∣w∣∣\frac{1}{||w||}$ ，即得到最终的损失函数：
$-\displaystyle\sum_{x_i∈M}y_i(w·x_i+b)$
推导：某一点到S的距离为 $−1∣∣w∣∣∣w⋅x0+b∣-\frac{1}{||w||}|w·x_0+b|$ ，而误分类数据会有 $y_i(w·x_i+b)>0$ ，所以上上式可以转化为 $−1∣∣w∣∣yi(w⋅xi+b)-\frac{1}{||w||}y_i(w·x_i+b)$ ，总距离： $−1∣∣w∣∣∑xi∈Myi(w⋅xi+b)-\frac{1}{||w||}\displaystyle\sum_{x_i∈M}y_i(w·x_i+b)$

$L (w, b)$ 非负，没有误分类点则为0

2.2 计算过程

使用随机梯度下降(SGD)来优化参数，算法如下：

选取初值 $w_0$ ， $b_0$
在训练集中选取数据 $x_i,y_i)$
如果 $yi(w⋅xi+b)≤0y_i(w·x_i+b)\leq 0$ ，则有：

$w+\eta y_ix_i$

$\eta y_i$
转至2，直到没有误分类点

其中 $η\eta$ 为学习率， $w$ 和 $b$ 的梯度通过对损失函数 $L (w, b)$ 求导而来

2.3代码实现

import numpy as np
import matplotlib.pyplot as plt

x_true = np.array([[3,3],[4,3]])
x_false = np.array([[1,1]])
y = [1]* len(x_true) + [-1] * len(x_false)
x_all = np.vstack([x_true,x_false])

w = np.array([0,0])
lr = 1
b = 0
i = 0
#循环判断每一个样本有没有误分类，有则更新参数重新开始判断
while i<len(x_all):
    if y[i]*(w.dot(x_all[i].T)+b) <= 0:
        w = w + lr * y[i] * x_all[i]
        b = b + lr * y[i]
        i = 0
        print('w = {},b = {}'.format(w,b))
    else:
        i += 1
print('平面S为：{:.2f}x1 + {:.2f}x2 {} = 0'.format(w[0],w[1], str(b) if b < 0 else '+'+str(b)))
plot_x = [0,1,2,3,4,5]
plot_y = [-(x*w[0]+b)/w[1] for x in plot_x]
plt.figure(figsize =(10,10))
plt.scatter([x[0] for x in x_true], [x[1] for x in x_true] , c = 'blue')
plt.scatter([x[0] for x in x_false], [x[1] for x in x_false] , c = 'red')
plt.plot(plot_x , plot_y , c = 'black')
# plt.text(0.5,4.5,'Func:{:.2f}x1 + {:.2f}x2 {} = 0'.format(w[0],w[1], str(b) if b < 0 else '+'+str(b)),fontsize=15,color = "green",style = "italic")
plt.xlim(0, 5.0) #坐标轴
plt.ylim(0, 5.0)
plt.xlabel('x1',fontsize = 16)
plt.ylabel('x2',fontsize = 16)
plt.pause(0.001)
plt.show()

实现结果：

请添加图片描述

$w$ 和 $b$ 变化过程以及最终的平面S：

请添加图片描述

换一组更复杂的数据测试：
请添加图片描述

3.感知机对偶形式

对偶形式是将原始形式中的 $w$ 和 $b$ 表示为 $x_i$ 和 $y_i$ 的线性组合，即

${w=∑i=1Nniyixib=∑i=1Nniyi\begin{cases} w =\displaystyle\sum_{i = 1}^Nn_i y_ix_i \\b = \displaystyle\sum_{i=1}^Nn_i y_i \end{cases}$

$n_i$ 值越大，表示这个样本被误分类的次数越多，就意味着这个点离我们所需要的超平面越近，左移一点或者右移一点就会误分类，对于SVM而言，这个点极有可能就是支持向量

根据原始形式， $sign(\displaystyle\sum_{j=1}^Nn_j y_jx_j·x+\displaystyle\sum_{i=1}^Nn_i y_j)$

从之前的的优化 $w$ 和 $b$ ，变成了优化 $n$

误分类的判断条件也变成了 $yi(∑j=1Nnjyjxj⋅x+∑i=1Nniyj)<0y_i(\displaystyle\sum_{j=1}^Nn_j y_jx_j·x+\displaystyle\sum_{i=1}^Nn_i y_j)<0$

3.1 计算过程

《统计学习方法》中将 $n_i$ 用 $αi\alpha_i$ 表示

选取初值 $α\alpha$ ， $b$
在训练集中选取数据 $x_i,y_i)$
如果 $yi(∑j=1Nαjyjxj⋅xi+b)≤0y_i(\displaystyle\sum_{j=1}^N\alpha_jy_jx_j·x_i+b)\leq 0$ ，则有：

$α=α+η\alpha = \alpha+\eta$

$\eta y_i$
转至2，直到没有误分类点

在对偶形式中，样本以内积的形式计算，如果以内积矩阵形式存储，则会大大缩短计算时间，即Gram矩阵：

$G = [x_i·x_j]$ ，代码可以表示成Gram = x.dot(x.T)

3.2 代码实现

import numpy as np
import matplotlib.pyplot as plt

x_true = np.array([[3, 3], [4, 3]])
x_false = np.array([[1, 1]])
x_all = np.vstack([x_true,x_false])
y = [1]*len(x_true) + [-1] * len(x_false)
n = len(x_all)


a = np.zeros(n)
b = 0
lr = 1

Gram = x_all.dot(x_all.T) #计算G

i = 0
#循环判断每一个样本有没有误分类，有则更新参数重新开始判断
while i < n:
    error = 0
    for j in range(n):
        error += a[j] * y[j] * Gram[j,i]
    if y[i] * (error + b) <= 0: #有负样本
        a[i] += lr
        b += lr * y[i]
        print('a = {},b = {}'.format(a,b))
        i = 0
    else:
        i += 1

w = np.zeros(2)
for j in range(n):
    w += a[j] * y[j] * x_all[j]

print('平面S为：{:.2f}x1 + {:.2f}x2 {} = 0'.format(w[0],w[1], str(b) if b < 0 else '+'+str(b)))

plot_x = [0,1,2,3,4,5]
plot_y = [-(x*w[0]+b)/w[1] for x in plot_x]
plt.figure(figsize =(10,10))
plt.scatter([x[0] for x in x_true], [x[1] for x in x_true] , c = 'blue')
plt.scatter([x[0] for x in x_false], [x[1] for x in x_false] , c = 'red')
plt.plot(plot_x , plot_y , c = 'black')
plt.xlim(0, 5.0) #坐标轴
plt.ylim(0, 5.0)
plt.xlabel('x1',fontsize = 16)
plt.ylabel('x2',fontsize = 16)
plt.pause(0.001)
plt.show()