当数据完全线性可分时
∙\bullet∙ 最大化间隔的超平面,即SVM分类模型:maxw,b2∣∣w∣∣2max_{w,b}\frac{2}{||\mathbf w||_{2}}maxw,b∣∣w∣∣22s.t. yi(wTxi+b)>=1,i=1,...,Ns.t.\space\space\space y_{i}(\mathbf w^T \mathbf x_{i} + b) >=1, i=1,...,Ns.t. yi(wTxi+b)>=1,i=1,...,N 在上面的表达式里(以及下边等价于的那段),PPT上没有xix_{i}xi,是我自己加进去的,应该是老师的笔误,在网上查过资料,也是有xix_{i}xi
∙\bullet∙ 等价于minw,b12∣∣w∣∣22min_{w,b}\frac{1}{2}||\mathbf w||_2^2minw,b21∣∣w∣∣22s.t. yi(wTxi+b)>=1,i=1,...,Ns.t.\space\space\space y_{i}(\mathbf w^T \mathbf x_{i} + b) >=1, i=1,...,Ns.t. yi(wTxi+b)>=1,i=1,...,Nw的L2模取平方,是为了计算方便,那么具体会如何方便呢?
数据不完全线性可分
在实际问题中,数据不一定完全线性可分

数据完全线性可分,但间隔很小
数据完全线性可分,但完全分开训练样本的分类器间隔小。
在上图的两种情况里,我们任务左边优于右边。
C—SVM
∙\bullet∙ 当样本可以完全线性可分时:yi(w0+wTxi)>=1y_{i}(w_{0} + \mathbf w^T\mathbf x_{i}) >= 1yi(w0+wTxi)>=1
∙\bullet∙ 在实际问题中,数据不一定完全线性可分。
∙\bullet∙ 因此解决方案引入软间隔(soft margin),允许一些样本出错,即允许某些样本不满足约束,将约束放松为$yi(w0+wTxi)>=1−ξiy_{i}(w_{0} + \mathbf w^T\mathbf x_{i}) >= 1 - \xi_{i}yi(w0+wTxi)>=1−ξi
∙\bullet∙ 其中ξi\xi_{i}ξi称为松弛变量(slack variables),且ξi>=0\xi_{i} >= 0ξi>=0
∙\bullet∙ 当然松弛变量是由成本的,样本不满足约束的程度越低越好。
∙\bullet∙ 每一个松弛变量对应一个代价,得到软间隔最大化的SVM (C-SVM)的目标函数为:J(w,b,c)=12∣∣w∣∣22+C∑i=1NξiJ(\mathbf w,b,c) = \frac{1}{2}||\mathbf w||_{2}^2 + C\sum_{i=1}^{N}\xi_{i}J(w,b,c)=21∣∣w∣∣22+Ci=1∑Nξisubject to yi(w0+wTxi)>=1−ξi, ξi>=0subject\space to \space y_{i}(w_{0} + \mathbf w^T \mathbf x_{i}) >= 1-\xi_{i},\space \xi_{i} >=0subject to yi(w0+wTxi)>=1−ξi, ξi>=0
∙\bullet∙ 即间隔尽可能大,同时样本被误分类的程度尽可能低
∙\bullet∙ 其中C控制间隔和松弛变量惩罚项之间的平衡,C越大,对误分类的惩罚越大,∣∣w∣∣22||w||_{2}^{2}∣∣w∣∣22越大,间隔越小。那也意味着ξ\xiξ越小一些吧?
∙\bullet∙ 数据不完全线性可分示意图:松弛变量

粉色虚线上及左上的红色样本(正样本),黑色虚线上及右下方的黑色样本(负样本),被称为支持向量,因为对决策有用。
注意哪些标明了的红色样本的ξ\xiξ值,这些值都不一样。
∙\bullet∙ C-SVM目标函数形式与带正则的线性回归或Logistic回归目标函数类似。
∙\bullet∙ 事实上,被误分样本点的ξi>=1\xi_{i} >= 1ξi>=1,因此∑i=1N\sum_{i=1}^{N}∑i=1N为被误分样本数的上界,可视为训练误差。应该不是误分样本数吧,而是误分样本ξ\xiξ的和?
∙\bullet∙ 因此参数C可视为控制最小训练误差和模型复杂度的参数
合页损失
∙\bullet∙ 在C-SVM中,
1)当yi(w0+wTxi)>=1,ξi=0y_{i}(w_{0} + \mathbf w^T \mathbf x_{i}) >= 1,\xi_{i} = 0yi(w0+wTxi)>=1,ξi=0
2)其他点:ξi=1−yi(w0+wTxi)\xi_{i} = 1 - y_{i}(w_{0} + \mathbf w^T \mathbf x_{i})ξi=1−yi(w0+wTxi)
∙\bullet∙ 因此得到的替代损失函数ξ=LHinge(y,y^)={0 yy^>=11−yy^ otherwise\xi = L_{Hinge}(y, \hat y) = \begin{cases}\\ 0 \space\space\space\space\space\space\space\space\space\space\space\space\space\space y\hat y>=1
\\1 - y\hat y \space\space\space\space\space otherwise
\end{cases}ξ=LHinge(y,y^)=⎩⎨⎧0 yy^>=11−yy^ otherwise
∙\bullet∙ 该函数称为合页损失

CSV:合页损失+L2损失
∙\bullet∙ 将合页损失带入C-SVM的目标函数J(w;b;c)=12∣∣w∣∣22+C∑i=1NξiJ(\mathbf w;b;c) = \frac{1}{2}||\mathbf w||_{2}^2 + C\sum_{i=1}^{N}\xi_{i}J(w;b;c)=21∣∣w∣∣22+Ci=1∑Nξi =12∣∣w∣∣22+C∑i=1NLHinge(yi,f(xi;w;b))=\frac{1}{2}||\mathbf w||_{2}^2 + C\sum_{i=1}^{N}L_{Hinge}(y_{i}, f(\mathbf x_{i};\mathbf w;b))=21∣∣w∣∣22+Ci=1∑NLHinge(yi,f(xi;w;b))
∙\bullet∙ 对比一般机器学习模型的目标函数:J(θ,λ)=∑i=1NL(yi,f(xi;θ))+λR(θ)J(\mathbf \theta,\lambda) = \sum_{i=1}^{N}L(y_{i}, f(\mathbf x_{i};\mathbf \theta)) + \lambda R(\theta)J(θ,λ)=i=1∑NL(yi,f(xi;θ))+λR(θ)也存在一定的相似性。
目标函数,可以理解为合页损失 + L2正则。若换位L1正则,也可以得到稀疏解。ξ\xiξ那一项要越小越好。
1330

被折叠的 条评论
为什么被折叠?



