一、感知机模型
感知机是二分类的线性分类模型。感知机对应于输入空间(即特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。
定义:
假设输入空间是 X ⊆ R n \mathcal{X}\subseteq\bm R^n X⊆Rn,输出空间是 Y = { + 1 , − 1 } \mathcal{Y}=\{+1, -1\} Y={
+1,−1}。输入 x ∈ X x\in\mathcal{X} x∈X表示实例的特征向量,输出 y ∈ Y y\in\mathcal Y y∈Y,由输入空间到输出空间的如下函数 f ( x ) = s i g n ( ω ⋅ x + b ) (1) f(x)=sign(\omega\cdot x + b)\tag1 f(x)=sign(ω⋅x+b)(1)
称为感知机。其中 ω ∈ R n \omega\in\bm R^n ω∈Rn叫做权值或权值向量, b ∈ R b\in\bm R b∈R叫做偏置, ω ⋅ x \omega\cdot x ω⋅x表示内积。
感知机模型的假设空间是定义在特征空间中的所有线性分类模型,即函数集合 { f ∣ f ( x ) = ω ⋅ x + b } \{f|f(x)=\omega\cdot x + b\} { f∣f(x)=ω⋅x+b}
几何解释:
ω ⋅ x + b = 0 \omega\cdot x + b=0 ω⋅x+b=0对应于特征空间 R n \bm R^n Rn中的一个超平面 S S S,其中 ω \omega ω是超平面的法向量, b b b是超平面的截距,这个超平面将特征空间划分为两个部分,从而达到分类的效果。
二、感知机学习策略
2.1 数据集的线性可分性
给定一个数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } T=\{(x_1, y_1), (x_2, y_2), \cdots,(x_N, y_N)\} T={ (x1,y1),(x2,y2),⋯,(xN,yN)},其中 x i ∈ X = R n , y i ∈ { + 1 , − 1 } , i = 1 , 2 , ⋯ , N x_i\in\mathcal X=\bm R^n, y_i\in\{+1, -1\}, i=1,2,\cdots, N xi∈X=Rn,yi∈{ +1,−1},i=1,2,⋯,N。如果存在某个超平面 S : ω ⋅ x + b = 0 S: \omega\cdot x + b=0 S: