1、不适定问题
在解决分类问题时,通常根据算法模型在样本的特征空间内生成的决策边界来为样本分类提供依据。但对于许多现实的样本集来说,在其特征空间内可能会存许多满足分类要求的决策边界,也就是决策边界不唯一。
在逻辑回归中,求解样本特征空间的决策边界是通过定义一个概率函数 σ ( t ) \sigma(t) σ(t),根据概率函数建模形成了一个损失函数,再通过最小化损失函数来求解一条符合条件的决策边界,由于损失函数完全由采样数据所决定,所以求解的决策边界的不一定是面对实际情况的最优决策边界,也就是决策边界的泛化能力可能不足。
2、支撑向量机对不适定问题的解决方案
对于算法模型来说,最重要的问题是模型的泛化能力。对于分类模型来说也对应决策边界的泛化能力。一个好的决策边界,应该能够充分地分割样本的特征空间。所以就有对于这样一个 “好的决策边界” 定义为距样本空间内各类别簇的分布边缘都尽可能远,换而言之就是各类别簇距 decision_boundary 最近的一些点离 decision_boundary 最远。
不同于 逻辑回归 建模在于求一条符合条件的 decision_boundar ,支撑向量机(SVM,Support Vector Machine) 的主要思想是 寻找一个最优决策边界 ,该决策边界拥有充分的泛化能力,不仅能很好的划分训练数据,同时还能很好地应对实际要面对的数据。在SVM的数学理论里该最优决策边界定义为距离样本空间内各类别簇尽可能远的决策边界, 也就是 距离所有类别簇的最近样本最远的决策边界,这些距离决策边界最近的类别簇样本称为 支撑向量,它们最终决定了SVM算法 寻找的最优决策边界。
SVM 线性分类器类别
- Hard Margin SVM ,基于 SVM思想 的最原始分类器。
- Soft Margin SVM ,基于 Hard Margin SVM 的优化算法,添加了正则项。
3、Hard Margin SVM 的最优化问题
由于距离决策边界最近的类别簇样本,也就是 支撑向量 决定了最优决策边界。这个最优决策边界满足距离所有类别簇的最近样本最远。令支撑向量到决策边界的距离为 d d d,则有 SVM算法 在于最大化 d d d。首先根据解析几何,空间上任意点 x x x 到 决策边界所在超平面 w T x + b = 0 w^Tx + b = 0 wTx+b=0 的距离将描述为 d = ∣ w T x + b ∣ ∥ w ∥ d = \frac {|w^Tx + b |}{\|w\|} d=∥w∥∣wTx+b∣。
3.1 SVM 的约束条件
SVM 定义了支撑向量到决策边界的距离为 d d d,那么样本空间内任意样本点到决策边界的距离都将大于 d d d。同时决策边界应该从各样本簇中心划分样本空间,所以对于二分类 y ( i ) ∈ { − 1 , 1 } y^{(i)} \in \{-1,1\} y(i)∈{ −1,1},就有两个类别的样本到decision_boundary 的有向距离应满足:
- 对于边界上方的类别点, w T x + b ∥ w ∥ > d , ∀ y ( i ) = + 1 \frac {w^Tx + b}{\|w\|} > d,\forall y^{(i)} = +1 ∥w∥wTx+b>d,∀y(i)=+1
- 对于边界下方的类别点, w T x + b ∥ w ∥ < − d , ∀ y ( i ) = − 1 \frac {w^Tx + b}{\|w\|} < -d,\forall y^{(i)} = -1 ∥w∥wTx+b<−d,∀y(i)=−1
联合变形为
{ w T x + b ∥ w ∥ d > 1 , ∀ y ( i ) = 1 w T x + b ∥ w ∥ d > − 1 , ∀ y ( i ) = − 1 \left\{ \begin{array}{c} \frac {w^Tx + b}{\|w\|d} >\ \ \ 1,\forall y^{(i)} = \ \ 1 \\ \frac {w^Tx + b}{\|w\|d} > -1,\forall y^{(i)} = -1 \end{array} \right. { ∥w∥dwTx+b> 1,∀y(i)= 1∥w∥dwTx+b>−1,∀y(i)=−1
令 w d = w ∥ w ∥ d , b d = b ∥ w ∥ d \small {\bf 令\ \ \ } w_d = \frac {w}{\|w\|d},b_d = \frac {b}{\|w\|d} 令 w