注
不小心把Task04的笔记覆盖了,此篇内容不作为参考。
第六章 神经网络
6.1 间隔与支持向量
如上图所示,间隔与支持向量解释为:
支持向量:距离超平面最近的样本点
间隔:两个不同种类支持向量到超平面的距离之和
支持向量机(SVM)就是要寻找具有最大间隔的超平面
划分超平面可通过如下线性方程来描述:
ω T x + b = 0 \omega ^ Tx + b = 0 ωTx+b=0
间隔可表示为:
γ = 2 ∥ ω ∥ \gamma = \frac{2}{\left \| \omega \right \| } γ=∥ω∥2
SVM的基本型:
max w , b 2 ∥ ω ∥ s.t. y i ( ω T x i + b ) ≥ 1 , i = 1 , 2 , … m . \max _{w,b} \frac{2}{\left \| \omega \right \|} \\ \text{ s.t. } y_{i}(\omega^Tx_{i}+b)\ge 1,i=1,2,\dots m. w,bmax∥ω∥2 s.t. yi(ωTxi+b)≥1,i=1,2,…m.
等价于:
min w , b 1 2 ∥ ω ∥ 2 s.t. y i ( ω T x i + b ) ≥ 1 , i = 1 , 2 , … m . \min _{w,b} \frac{1}{2} \left \| \omega \right \| ^2 \\ \text{ s.t. } y_{i}(\omega^Tx_{i}+b)\ge 1,i=1,2,\dots m. w,bmin21∥ω∥2 s.t. yi(ωTxi+b)≥1,i=1,2,…m.
该问题的拉格朗日函数可写为:
L
(
ω
,
b
,
α
)
=
1
2
∥
ω
∥
2
+
∑
i
=
1
m
α
i
(
1
−
y
i
(
ω
T
x
i
+
b
)
)
L(\omega ,b,\alpha ) = \frac{1}{2} \left \| \omega \right \| ^2 + \sum_{i=1}^{m}\alpha _{i}(1-y_{i}(\omega ^Tx_{i}+b))
L(ω,b,α)=21∥ω∥2+i=1∑mαi(1−yi(ωTxi+b))
6.2 对偶问题
经过求偏导,设为0,化简可得SVM的对偶问题:
max
α
∑
i
=
1
m
α
i
−
1
2
∑
m
i
=
1
∑
m
j
=
1
α
i
α
j
y
i
y
j
x
i
T
x
j
s.t.
∑
i
=
1
m
α
i
y
i
=
0
,
α
i
≥
0
,
i
=
1
,
2
,
…
,
m
.
\max _{\alpha } \sum_{i=1}^{m}\alpha _{i}-\frac{1}{2} \sum_{m}^{i=1} \sum_{m}^{j=1} \alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^Tx_{j}\\ \text{s.t.} \sum_{i=1}^{m}\alpha_{i}y_{i} = 0,\\ \alpha _{i} \ge 0,i=1,2,\dots ,m.
αmaxi=1∑mαi−21m∑i=1m∑j=1αiαjyiyjxiTxjs.t.i=1∑mαiyi=0,αi≥0,i=1,2,…,m.
6.3 核函数
非线性支持向量机(核函数)
若样本不能用直线分割,可以考虑升维,这个就是核函数的意义:
其中核函数分为:
- 线性核函数
- 多项式核函数
- 高斯核函数
- Gigmoid核函数
- 余弦相似度核函数
6.4 软间隔与正则化
硬间隔:不允许样本分类错误
软间隔:允许一定的样本分类错误
简单来说,软间隔有一定的容错率:
基本思路:
其中0/1损失函数也可以替换成hingo损失、指数损失或对率损失。
参考文献
[2]. 机器学习理论基础笔记