感知机

最新推荐文章于 2025-10-20 00:25:42 发布

原创最新推荐文章于 2025-10-20 00:25:42 发布 · 226 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#感知机 #Python

机器学习同时被 2 个专栏收录

2 篇文章

订阅专栏

Python

2 篇文章

订阅专栏

Perceptron：二类分类的线性分类模型，输入为实例的特征向量，输出为实例的类别。对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。

1 感知机模型

定义假设输入空间（特征空间）是 $X⊆Rn\mathscr{X}\subseteq \mathbf{R}^n$ ，输出空间是 $Y={+1,−1}\mathscr{Y}=\{+1,-1\}$ 。输入 $x⃗∈X\vec x \in \mathscr{X}$ 表示实例的特征向量，对应于输入空间（特征空间）的点；输出 $\in \mathscr{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数：
$sign(\vec w \cdot \vec x + b)$
称为感知机。其中，w和b为感知机模型参数， $w⃗∈Rn\vec w \in \mathbf{R}^n$ 叫做权值（weight）或权值向量（weight vector）， $\in \mathbb{R}$ 叫做偏置（bias）， $w⃗⋅x⃗\vec w \cdot \vec x$ 为内积，sign是符号函数。

假设空间：定义在特征空间中的所有线性分类模型，即函数集合 ${f∣f(x)=w⃗⋅x⃗+b}\{f|f(x)=\vec w \cdot \vec x + b\}$ 。

2 感知机学习策略

2.1 数据集的线性可分性

存在一个分离超平面 $w⃗⋅x⃗+b=0\vec w \cdot \vec x +b=0$ 能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧。即 $(w⃗⋅x⃗i+b)×yi>0(\vec w \cdot \vec x_i + b) \times y_i > 0$ 。

2.2 感知机学习策略

找出线性可分的分离超平面，即确定感知机模型参数 $w⃗\vec w$ 和b，定义（经验）损失函数并将损失函数最小化。

损失函数：误分类点到超平面S的总距离。

输入空间 $Rn\mathbf{R}^n$ 中任一点 $x_0$ 到超平面S的距离： $1∣∣w∣∣∣w⃗⋅x⃗+b∣\frac{1}{||w||}|\vec w \cdot \vec x+b|$ 。则对于误分类点 $x_i,y_i)$ ，到超平面S的距离为 $\frac{1}{||w||}y_i(\vec w \cdot \vec x_i+b)$ 。对所有误分类点到超平面S的距离求和，不考虑 $1∣∣w∣∣\frac{1}{||w||}$ ，即可得到感知机的损失函数。
$L(\vec w,b)=- \sum_{x_i \in M}y_i(\vec w \cdot \vec x_i +b)$
其中M为误分类点的集合。

3 感知机学习算法

求解损失函数的最优化问题：随机梯度下降法（stochastic gradient descent）。

3.1 原始形式

选取初值 $w_0,b_0$ 。
在训练机中选取数据 $x_i,y_i)$ ，作为误分类点。
如果 $yi(w⃗⋅x⃗i+b)≤0y_i(\vec w \cdot \vec x_i+b)\leq 0$
$\gets w + \eta y_ix_i \\ b \gets b+ \eta y_i$
转至2，直至训练集中没有误分类点。

3.2 算法的收敛性

对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。Novikoff定理。

误分类次数k满足不等式：
$\leq (\frac{R}{\gamma})^2,R = \max_{1 \leq i \leq N}||x_i||,\gamma = \min_{i}\{y_i(\vec w_{opt} \cdot \vec x_i+b_{opt}\}$

3.3 对偶形式

基本想法：将 $w⃗\vec w$ 和b表示为实例 $x⃗i\vec x_i$ 和标记y_i的线性组合的形式，通过求解其系数而求得w和b。

对于误分类点 $(x⃗i,yi)(\vec x_i,y_i)$ ，通过3.1中逐步修改w，b，假设修改了n_i次， $αi=niη\alpha_i=n_i\eta$ ，则
$\sum_{i=1}^{N}\alpha_ix_iy_i \\ b = \sum_{i+1}^{N}\alpha_iy_i$
考虑 $n_i$ 的含义： $n_i$ 表示 $x_i,y_i)$ 由于误分类而进行更新的次数。更新次数越多，意味着它离超平面越近。

则原始形式第3步的判断条件，需要关注 $n_i$ 。即若不符合条件，则更新次数加1。

对偶形式的意义在于，训练实例仅以内积的形式出现。可以预先将训练机中实例间的内积计算出来并以矩阵的形式存储，即Gram矩阵（任意两个向量的内积组成的矩阵）。

4 Python实现

import numpy as np


def sign (x):
	if x >= 0:
		return 1
	else:
		return -1


def training ():
	positive_sample = [[3, 3, 1], [4, 6, 1], [4, 5, 1]]
	negative_sample = [[1, 2, -1], [-1, 2, -1], [3, 5, -1]]
	samples = positive_sample + negative_sample
	w = np.array([0, 0])
	b = 0
	eta = 0.7
	iterator_time = 1000000
	sum = 0

	for i in range(iterator_time):
		sum += 1
		index = np.random.randint(0, len(samples) - 1)
		x = np.array(samples[index][:-1])
		y = samples[index][-1]
		if y * (np.dot(x, w) + b) <= 0:
			w = w + eta * y * x
			b = b + eta * y

			print("Weight:" + str(w) + "------" + "Bias:" + str(b))

	print(sum)
	print("--------Result--------")
	print(w)
	print(b)

	return [w, b]


def test (x):
	arguments = training()
	w = np.array(arguments[0])
	b = arguments[1]
	x_data = np.array(x)
	return sign(np.dot(x_data, w) + b)


if __name__ == '__main__':
	print("Test", test([2, 5]))