-
首先考虑硬间隔支持向量机:
min w 1 2 ∣ ∣ w ∣ ∣ 2 \min\limits_w\frac{1}{2}||w||^2 wmin21∣∣w∣∣2
s . t . y i ( w T x i + b ) ≥ 1 , i = 1 , . . , m s.t.~~y_i(w^Tx_i+b)\geq1, i=1,..,m s.t. yi(wTxi+b)≥1,i=1,..,m
在某些样本不满足约束条件的情况下,因此松弛因子 ξ i \xi_i ξi.
对于满足约束条件的样本有:
y i ( w T x i + b ) ≥ 1 y_i(w^Tx_i+b)\geq1 yi(wTxi+b)≥1,且 ξ i = 0 \xi_i=0 ξi=0(没必要松弛)。
对不不满足约束条件的样本由:
y i ( w T x i + b ) < 1 y_i(w^Tx_i+b)<1 yi(wTxi+b)<1,且 ξ i = 1 − y i ( w T x i + b ) > 0 \xi_i=1-y_i(w^Tx_i+b)>0 ξi=1−yi(wTxi+b)>0。
即 y i ( w T x i + b ) + ξ i = 1 y_i(w^Tx_i+b)+\xi_i=1 yi(wTxi+b)+ξi=1
合并两种情况得:
y i ( w T x i + b ) + ξ i ≥ 1 y_i(w^Tx_i+b)+\xi_i\geq1 yi(wTxi+b)+ξi≥1, ξ i ≥ 0 , i = 1 , . . . , m \xi_i\geq0,~~~i=1,...,m ξi≥0, i=1,...,m
但是 ξ i \xi_i ξi作为处理某些异常样本的手段,显然 ξ i \xi_i ξi不能无限大。因此在原优化目标加入惩罚项: ∑ i = 1 m ξ i \sum\limits_{i=1}^m\xi_i i=1∑mξi。
则可得软间隔支持向量机:
min w 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 m ξ i ( 1 ) \min\limits_w\frac{1}{2}||w||^2+C\sum\limits_{i=1}^m\xi_i~~~~~~~~(1) wmin21∣∣w∣∣2+Ci=1∑mξi (1)
s . t . y i ( w T x i + b ) + ξ i ≥ 1 s.t.~~~y_i(w^Tx_i+b)+\xi_i\geq1 s.t. yi(wTxi+b)+ξi≥1, ξ i ≥ 0 , i = 1 , . . . , m \xi_i\geq0,~~~i=1,...,m ξi≥0, i=1,...,m
其中C常数惩罚因子。
需要注意的是 b b b的解不唯一,是一个连续区间。 -
经过拉格朗日乘子法以及对偶性可得对偶优化问题:
min α i 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j − ∑ i = 1 m α i \min\limits_{\alpha_i}\frac{1}{2}\sum\limits_{i=1}^m\sum\limits_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum\limits_{i=1}^m\alpha_i αimin21i=1∑mj=1∑mαiαjyiyjxiTxj−i=1∑mαi
s . t . ∑ i = 1 m α i y i = 0 s.t.~~\sum\limits_{i=1}^m\alpha_iy_i=0 s.t. i=1∑mαiyi=0
0 ≤ α i ≤ C ~~~~~~~0\leq\alpha_i\leq C 0≤αi≤C
i = 1 , . . . , m ~~~~~~~i=1,...,m i=1,...,m
与硬间隔支持向量机相比,不同点在于 α i \alpha_i αi加了个 C C C约束。 -
损失函数角度理解软间隔支持向量机
观察软间隔支持向量机优化目标式(1),实际上有:
ξ i = m a x ( 0 , 1 − y i ( w T x i + b ) ) \xi_i=max(0,1-y_i(w^Tx_i+b)) ξi=max(0,1−yi(wTxi+b)),
上式实际为合页(hinge)损失函数,所以式(1)第二项可以理解为风险损失,式(1)第一项为结构损失。如果替换合页损失函数为log损失函数,则得到与逻辑回归非常类似的优化目标。他们的性能也相近。但是正是由于合页损失函数的存在,使得软间隔SVM的解更稀疏,求解更高效。
软间隔支持向量机
最新推荐文章于 2025-05-16 16:51:01 发布