感知机知识点
感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1两值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单易行的特点,分为原始形式和对偶形式。感知机是用学习的到的感知机模型对新的输入实例进行分类,是神机网络与支持向量机的基础。
感知机模型
定义:假设输入空间(特征空间)是
χ
⊆
R
n
\chi\subseteq R^n
χ⊆Rn,输出空间是
γ
=
{
+
1
,
−
1
}
\gamma = \{+1,-1\}
γ={+1,−1}。输入
x
∈
χ
x\in \chi
x∈χ表示实例的特征向量,对应于输入空间(特征空间)的点;输出
y
∈
γ
y\in \gamma
y∈γ表示实例的类别。由输入空间到输出空间的函数:
f
(
x
)
=
s
i
g
n
(
w
⋅
x
+
b
)
(1)
f(x)=sign(w·x+b) \tag{1}
f(x)=sign(w⋅x+b)(1)
称为感知机。其中,w和b为感知机模型参数,
w
∈
R
n
w\in R^n
w∈Rn叫作权值(weight)或权值向量(weight vector),
b
∈
R
b\in R
b∈R叫作偏置(bias),
w
⋅
x
w·x
w⋅x表示w和x的内积。sign是符号函数,即
s
i
g
n
(
x
)
=
{
+
1
,
x
≥
0
−
1
,
x
<
0
sign(x)= \begin{cases} +1, & x\geq 0 \\ -1, & x<0 \end{cases}
sign(x)={+1,−1,x≥0x<0
感知机一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器(linear classifier),即函数集合
{
f
∣
f
(
x
)
=
w
⋅
x
+
b
}
\{f|f(x)=w·x+b\}
{f∣f(x)=w⋅x+b}.
感知机有如下几何解释:线性方程
w
⋅
x
+
b
=
0
w·x+b=0
w⋅x+b=0
对应于特征空间
R
n
R^n
Rn中的一个超平面S,其中w是超平面的法向量,b是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点(特征向量)分别为正、负两类。因此,超平面S称为分离超平面(separating hyperplane)。
感知机学习,由训练数据集(实例的特征向量及类别)
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}
T={(x1,y1),(x2,y2),...,(xN,yN)}
其中,
x
i
∈
χ
=
R
n
,
y
i
∈
γ
=
{
+
1
,
−
1
}
,
i
=
1
,
2
,
.
.
.
,
N
x_i\in \chi = R^n,y_i\in \gamma=\{+1,-1\},i=1,2,...,N
xi∈χ=Rn,yi∈γ={+1,−1},i=1,2,...,N,求得感知机模型(1),即切得模型参数
w
,
b
w,b
w,b。感知机预测,通过学习得到的感知机模型,对于新的输入实例给出其对应的输出类别。