- 线性可分支持向量机
(1)线性可分支持向量机如下图示:
(2)分割超平面:
设C和D是两个不相交的凸集,则存在超平面P使得C和D分离。
两个集合的距离定义为两个集合间元素的最短距离,做集合C和D最短线段的垂直平分线。
如何定义两个集合的最优分割超平面,找到集合“边界”上的若干点,以这些点为基础计算超平面的方向,以两个集合边界上的这些点的平均作为超平面的截距。
(3)线性分类问题:
输入数据:假设给定一个特征空间上的训练数据集, T = { ( x ⃗ 1 , y 1 ) , ( x ⃗ 2 , y 2 ) , ⋯ , ( x ⃗ n , y n ) } T=\{ (\vec{x}_1,y_1),(\vec{x}_2,y_2),\cdots,(\vec{x}_n,y_n) \} T={(x1,y1),(x2,y2),⋯,(xn,yn)},其中 x ⃗ ∈ R n \vec{x} \in R^n x∈Rn, y i ∈ { + 1 , − 1 } y_i\in \{ +1,-1 \} yi∈{+1,−1}, y i y_i yi为 x ⃗ i \vec{x}_i xi的类标记,当 y i = + 1 y_i=+1 yi=+1时,称 x ⃗ 1 \vec{x}_1 x1为正例,当 y i = − 1 y_i=-1 yi=−1时,称 x ⃗ 1 \vec{x}_1 x1为负例。
线性可分支持向量机:给定线性可分训练集,通过间隔最大化得到的分离超平面为 y ( x ) = w T Φ ( x ) + b y(x)=w^T\Phi(x)+b y(x)=wTΦ(x)+b,相应的决策函数为 f ( x ) = s i g n ( w T Φ ( x ) + b ) f(x)=sign(w^T\Phi(x)+b) f(x)=sign(wTΦ(x)+b),该决策函数称为线性可分支持向量机。 Φ ( x ) \Phi(x) Φ(x)是某个确定的特征空间转换函数,它的作用是将x映射到(更高的)维度。求解分离超平面问题可以等价求解相应的凸二次规划问题。
(4)推导目标函数
根据题设 y ( x ) = w T Φ ( x ) + b y(x)=w^T\Phi(x)+b y(x)=wTΦ(x)+b,有:
{ y ( x i ) > 0 ⇔ y i = + 1 y ( x i ) < 0 ⇔ y i = − 1 ⇒ y i ⋅ y ( x i ) > 0 \begin{cases} y(x_i)>0 \Leftrightarrow y_i=+1 \\ y(x_i)<0 \Leftrightarrow y_i=-1\\ \end{cases} \Rightarrow y_i \cdot y(x_i)>0 {y(xi)>0⇔yi=+1y(xi)<0⇔yi=−1⇒yi⋅y(xi)>0
w , b w,b w,b等比例缩放,则 t ∗ y t*y t∗y的值同样缩放,从而:
y i ⋅ y ( x i ) ∣ ∣ w ∣ ∣ = y i ⋅ ( x T ⋅ Φ ( x i ) + b ) ∣ ∣ w ∣ ∣ \frac{y_i \cdot y(x_i)}{||w||}=\frac{y_i\cdot (x^T\cdot \Phi(x_i) +b)}{||w||} ∣∣w∣∣yi⋅y(xi)=∣∣w∣∣yi⋅(xT⋅Φ(xi)+b)
目标函数为
arg max w , b { 1 ∥ w ∥ min i [ y i ⋅ ( w T ⋅ Φ ( x i ) + b ) ] } \underset{w, b}{\arg \max }\left\{\frac{1}{\|w\|} \min _{i}\left[y_{i} \cdot\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)\right]\right\} w,bargmax{∥w∥1imin[yi⋅(wT⋅Φ(xi)+b)]}
含义为最大间隔分离超平面,如下图示意
建立目标函数:总可以通过等比例缩放w的方法,使得两类点的函数值都满足 ∣ y ∣ ≥ 1 |y| \geq 1 ∣y∣≥1。约束条件: y i ⋅ ( w T ⋅ Φ ( x i ) + b ) ≥ 1 y_{i} \cdot\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right) \geq 1 yi⋅(wT⋅Φ(xi)+b)≥1,原目标函数为 arg max w , b { 1 ∥ w ∥ min i [ y i ⋅ ( w T ⋅ Φ ( x i ) + b ) ] } \underset{w, b}{\arg \max }\left\{\frac{1}{\|w\|} \min _{i}\left[y_{i} \cdot\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)\right]\right\} w,bargmax{∥w∥1mini[yi⋅(wT⋅Φ(xi)+b)]},新的目标函数为: arg max w , b 1 ∥ w ∥ \underset{w, b}{\arg \max } \frac{1}{\|w\|} w,bargmax∥w∥1,也就是为
min w , b 1 2 ∥ w ∥ 2 \min _{w, b} \frac{1}{2}\|w\|^{2} w,bmin21∥w∥2 s.t. y i ( w T ⋅ Φ ( x i ) + b ) ≥ 1 , i = 1 , 2 , ⋯ , n \text { s.t. } \quad y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right) \geq 1, \quad i=1,2, \cdots, n s.t. yi(wT⋅Φ(xi)+b)≥1,i=1,2,⋯,n
(4)拉格朗日乘数法求解目标函数
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 n α i ( y i ( w T ⋅ Φ ( x i ) + b ) − 1 ) L(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)-1\right) L(w,b,α)=21∥w∥2−i=1∑nαi(yi(wT⋅Φ(xi)+b)−1)
原问题是极小极大问题
min w , b max α L ( w , b , α ) \min _{w, b} \max _{\alpha} L(w, b, \alpha) w,bminαmaxL(w,b,α)
原问题的对偶问题,是极大极小问题
max α min w , b L ( w , b , α ) \max _{\alpha} \min _{w, b} L(w, b, \alpha) αmaxw,bminL(w,b,α)
将拉格朗日函数 L ( w , b , a ) \mathrm{L}(\mathbf{w}, \mathrm{b}, \mathbf{a}) L(w,b,a)分别对 w , b \mathbf{w}, \quad \mathbf{b} w,b求偏导,并令其等于0
∂ L ∂ w = 0 ⇒ w = ∑ i = 1 n α i y i Φ ( x i ) \frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right) ∂w∂L=0⇒w=i=1∑nαiyiΦ(xi)
∂ L ∂ b = 0 ⇒ 0 = ∑ i = 1 n α i y i \frac{\partial L}{\partial b}=0 \Rightarrow 0=\sum_{i=1}^{n} \alpha_{i} y_{i} ∂b∂L=0⇒0=i=1∑nαiyi
将上式带入并且计算拉格朗日对偶函数:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 n α i ( y i ( w T ⋅ Φ ( x i ) + b ) − 1 ) = 1 2 w T w − w T ∑ i = 1 n α i y i Φ ( x i ) − b ∑ i = 1 n α i y i + ∑ i = 1 n α i = 1 2 w T ∑ i = 1 n α i y i Φ ( x i ) − w T ∑ i = 1 n α i y i Φ ( x i ) − b ⋅ 0 + ∑ i = 1 n α i = ∑ i = 1 n α i − 1 2 ( ∑ i = 1 n α i y i Φ ( x i ) ) T ∑ i = 1 n α i y i Φ ( x i ) = ∑ i = 1 n α i − 1 2 ∑ i , j = 1 n α i α j y i y j Φ T ( x i ) Φ ( x j ) \begin{aligned} &L(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left(y_{i}\left(w^{T} \cdot \Phi\left(x_{i}\right)+b\right)-1\right)\\ &=\frac{1}{2} w^{T} w-w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-b \sum_{i=1}^{n} \alpha_{i} y_{i}+\sum_{i=1}^{n} \alpha_{i}\\ &=\frac{1}{2} w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-w^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)-b \cdot 0+\sum_{i=1}^{n} \alpha_{i}\\ &=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2}\left(\sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)\right)^{T} \sum_{i=1}^{n} \alpha_{i} y_{i} \Phi\left(x_{i}\right)\\ &=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} \Phi^{T}\left(x_{i}\right) \Phi\left(x_{j}\right) \end{aligned} L(w,b,α)=21∥w∥2−i=1∑nαi(yi(wT⋅Φ(xi)+b)−1)=21wTw−wTi=1∑nαiyiΦ(xi)−bi=1∑nαiyi+i=1∑nαi=21wTi=1∑nαiyiΦ(xi)−wTi=1∑nαiyiΦ(xi)−b⋅0+i=1∑nαi=i=1∑nαi−21(i=1∑nαiyiΦ(xi))Ti=1∑nαiyiΦ(xi)=i=1∑nαi−21i,j=1∑nαiαjyiyjΦT(xi)Φ(xj)
a ∗ = arg max α ( ∑ i = 1 n α i − 1 2 ∑ i , j = 1 n α i α j y i y j Φ T ( x i ) Φ ( x j ) ) a^{*}=\underset{\alpha}{\arg \max }\left(\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j} \Phi^{T}\left(x_{i}\right) \Phi\left(x_{j}\right)\right) a∗=αargmax(i=1∑nαi−21i,j=1∑nαiαjyiyjΦT(xi)Φ(xj))
继续求 min w , b L ( w , b , α ) \min _{\mathrm{w}, \mathrm{b}} \mathrm{L}(\mathrm{w}, \mathrm{b}, \alpha) minw,bL(w,b,α)对 α \alpha α的极大值
max α ∑ i = 1 n α i − 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( Φ ( x i ) ⋅ Φ ( x j ) ) s.t. ∑ i = 1 n α i y i = 0 α i ≥ 0 , i = 1 , 2 , … , n \begin{aligned} &\max _{\alpha} \sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\Phi\left(x_{i}\right) \cdot \Phi\left(x_{j}\right)\right)\\ &\text { s.t. } \sum_{i=1}^{n} \alpha_{i} y_{i}=0\\ &\alpha_{i} \geq 0, \quad i=1,2, \dots, n \end{aligned} αmaxi=1∑nαi−21i=1∑nj=1∑nαiαjyiyj(Φ(xi)⋅Φ(xj)) s.t. i=1∑nαiyi=0αi≥0,i=1,2,…,n
整理目标函数:添加负号
min α 1 2 ∑ i = 1 n ∑ j = 1 n α i α j y i y j ( Φ ( x i ) ⋅ Φ ( x j ) ) − ∑ i = 1 n α i \min _{\alpha} \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\Phi\left(x_{i}\right) \cdot \Phi\left(x_{j}\right)\right)-\sum_{i=1}^{n} \alpha_{i} αmin21i=1∑nj=1∑nαiαjyiyj(Φ(xi)⋅Φ(xj))−i=1∑nαi
s.t. ∑ i = 1 n α i y i = 0 \text { s.t. } \sum_{i=1}^{n} \alpha_{i} y_{i}=0 s.t. i=1∑nαiyi=0
α i ≥ 0 , i = 1 , 2 , … , n \alpha_{i} \geq 0, \quad i=1,2, \dots, n αi≥0,i=1,2,…,n
求得最优解 α ∗ \alpha^{*} α∗
(5)举例
支持向量机-线性可分向量机
最新推荐文章于 2022-10-24 00:02:27 发布