凸优化第八章几何问题 8.6 分类

8.6 分类

  1. 线性判别
  2. 非线性判别

线性判别

在线性判别中,寻找仿射函数f(x)=a^Tx-b用以区分这些点,即

a^Tx_i-b>0,i=1,\cdots,N,\,\,\, a^Ty_i-b<0,i=1,\cdots ,M

在几何意义上,即寻找分离两个点集的超平面。因为严格不懂呢过是对于a和b是齐次的,所以它们是可行的,当且仅当不严格不等式组:

a^Tx_i-b\geq 1,i=1,\cdots,N,\,\,\, a^Ty_i-b\leq -1,i=1,\cdots ,M

是可行的。

下图是两个点集即线性判别函数的例子。

鲁棒线性判别

如果两个集合可以倍被别,那么存在一个可以分离它们的仿射函数的多面体,于是我们可以从中选择某些稳健度量下最优的一个。例如,我们可以寻找给出在x_i上的正值和y_i上的负值之间最大可能“间距”的函数。

如上图,两条虚线分别对应一个超平面,上侧的虚线对应H_1=\left \{ z|a^Tz+b=1 \right \},下侧的虚线对应H_2=\left \{ z|a^Tz+b=-1 \right \},于是dist(H_1,H_2)=2/\begin{Vmatrix} a\end{Vmatrix}_2

为了最大化间距,问题可以表述为:

minimize \,\, (1/2)\begin{Vmatrix}a \end{Vmatrix}_2 \\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 &i=1,\cdots,N \\ a^Ty_i+b\leq -1 & i=1\cdots,M \end{matrix}

是一个关于a和b的二次规划问题。

最大间距问题的Langrange函数:

L(a,b,\lambda,\mu)=(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i-b+1)+\sum_{i=1}^M\mu_i(a^Ty_i+b+1)

\frac{\partial L}{\partial b}=-\sum_{i=1}^N\lambda_i+\sum_{i=1}^M\mu_i=-1^T\lambda+1^T\mu

令其为0 ,得到1^T\lambda=1^T\mu

此时\underset{b}{inf}L(a,b,\lambda,\mu)=(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i+1)+\sum_{i=1}^M\mu_i(a^Ty_i+1)

对偶函数:

g(\lambda,\mu)=\underset{a,b}{inf}L(a,b,\lambda,\mu)\\ =\underset{a}{inf}(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i+1)+\sum_{i=1}^M\mu_i(a^Ty_i+1)\\ =\underset{a}{inf}(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i)+\sum_{i=1}^M\mu_i(a^Ty_i)+1^T\lambda+1^T\mu \\ =\underset{a}{inf}((1/2)\begin{Vmatrix}a \end{Vmatrix}_2+a^T(-\sum_{i=1}^N\lambda_ix_i+\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu \\ =\underset{a}{sup}-(1/2)(\begin{Vmatrix}a \end{Vmatrix}_2+a^T(-\sum_{i=1}^N\lambda_ix_i+\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu \\ =\underset{a}{sup}(-(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+a^T(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu\\ \underset{a}{sup}(-(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)^Ta)+1^T\lambda+1^T\mu\\ =f^*(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)+1^T\lambda+1^T\mu

其中f^*f=(1/2)\begin{Vmatrix} a\end{Vmatrix}_2的共轭函数,故

f^*(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)=\left\{\begin{matrix} 0 & \begin{Vmatrix} \sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i\end{Vnatrix}\leq 1/2\\ \infty & else \end{matrix}\right.

故对偶问题:

maximize \, \,1^T\lambda+1^T\mu \\ subject \,\, to \, \, 2\begin{Vmatrix}\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i \end{Vmatrix}\leq 1,1^T\lambda=1^T\mu,\lambda \geq 0,\mu \geq 0

\theta_i = \lambda_i/1^T\lambda,\gamma _i=\mu_i/1^T\mu,t=\frac{1}{1^T\lambda+1^T\mu}

对偶问题等价于:

minimize \, \, t\\ subject \,\, to \, \, \begin{Vmatrix}\sum_{i=1}^N\theta_ix_i-\sum_{i=1}^M\gamma _iy_i \end{Vmatrix}_2\leq t,\theta \succeq 0,1^T\theta=1,\gamma \succeq 0,1^T\gamma =1

线性不可分的近似线性分类

如上图,两个集合线性不可分,此时没有一个仿射函数可以将两个集合分开,于是引入松弛量,即放宽约束,

a^Tx_i+b\geq 1-u_i,a^Ty_i+b\leq -1+v_i

此时问题可以表述为:

minimize \,\, 1^Tu+1^Tv\\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 -u_i&i=1,\cdots,N \\ a^Ty_i+b\leq -1 +v_i& i=1\cdots,M \end{matrix},u\succeq 0,v\succeq 0

即寻找一个可以使点集更好的分类,同时最小化约束的放宽程度。

支持向量分类器

标准支持向量分类器定义为:

minimize \,\, \begin{Vmatrix}a \end{Vmatrix}_2+\gamma (1^Tu+1^Tv)\\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 -u_i&i=1,\cdots,N \\ a^Ty_i+b\leq -1 +v_i& i=1\cdots,M \end{matrix},u\succeq 0,v\succeq 0

目标函数的第一项表示极大化间距,第二项对错分点的松弛。

如上图,实现是支持向量分类器得到的近似线性判别。

非线性判别

从函数子空间中寻找非线性函数,使得函数在一个集合中为正,另一个集合中为负。

可以定义f(z)=\theta^TF(z),F=(F_1,\cdots,F_k):R^n\rightarrow R^k

于是

\theta ^TF(x_i)\geq 1,i=1,\cdots N,\theta^TF(y_i)\leq -1,i=1,\cdots ,M

二次判别

取f(x)为二次函数:f(xx^TQx+q^Tx+r,P\in S^n,q\in R^n,r\in R

可以对P ,q,r增加约束以限制分类区间的形状。

多项式判别

f(x)=\sum_{i_1+\cdots,+i_m\leq d}a_{i_1\cdots i_d}x_1^{i_1\cdots i_n}

 

来源:https://blog.youkuaiyun.com/wangchy29/article/details/87881546

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值