凸优化第八章几何问题 8.6 分类

最新推荐文章于 2023-02-12 16:48:57 发布

使君杭千秋

最新推荐文章于 2023-02-12 16:48:57 发布

阅读量274

点赞数 1

分类专栏：凸优化

原文链接：https://blog.youkuaiyun.com/wangchy29/article/details/87881546

版权

凸优化专栏收录该内容

62 篇文章

订阅专栏

8.6 分类

线性判别
非线性判别

线性判别

在线性判别中，寻找仿射函数 f(x)=a^Tx-b 用以区分这些点，即

$a^Tx_i-b>0,i=1,\cdots,N,\,\,\, a^Ty_i-b<0,i=1,\cdots ,M$

在几何意义上，即寻找分离两个点集的超平面。因为严格不懂呢过是对于a和b是齐次的，所以它们是可行的，当且仅当不严格不等式组：

$a^Tx_i-b\geq 1,i=1,\cdots,N,\,\,\, a^Ty_i-b\leq -1,i=1,\cdots ,M$

是可行的。

下图是两个点集即线性判别函数的例子。

鲁棒线性判别

如果两个集合可以倍被别，那么存在一个可以分离它们的仿射函数的多面体，于是我们可以从中选择某些稳健度量下最优的一个。例如，我们可以寻找给出在 x_i 上的正值和 y_i 上的负值之间最大可能“间距”的函数。

如上图，两条虚线分别对应一个超平面，上侧的虚线对应 $H_1=\left \{ z|a^Tz+b=1 \right \}$ ，下侧的虚线对应 $H_2=\left \{ z|a^Tz+b=-1 \right \}$ ，于是 $dist(H_1,H_2)=2/\begin{Vmatrix} a\end{Vmatrix}_2$ 。

为了最大化间距，问题可以表述为：

$minimize \,\, (1/2)\begin{Vmatrix}a \end{Vmatrix}_2 \\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 &i=1,\cdots,N \\ a^Ty_i+b\leq -1 & i=1\cdots,M \end{matrix}$

是一个关于a和b的二次规划问题。

最大间距问题的Langrange函数：

$L(a,b,\lambda,\mu)=(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i-b+1)+\sum_{i=1}^M\mu_i(a^Ty_i+b+1)$

$\frac{\partial L}{\partial b}=-\sum_{i=1}^N\lambda_i+\sum_{i=1}^M\mu_i=-1^T\lambda+1^T\mu$

令其为0 ，得到 $1^T\lambda=1^T\mu$

此时 $\underset{b}{inf}L(a,b,\lambda,\mu)=(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i+1)+\sum_{i=1}^M\mu_i(a^Ty_i+1)$

对偶函数：

$g(\lambda,\mu)=\underset{a,b}{inf}L(a,b,\lambda,\mu)\\ =\underset{a}{inf}(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i+1)+\sum_{i=1}^M\mu_i(a^Ty_i+1)\\ =\underset{a}{inf}(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+\sum_{i=1}^N\lambda_i(-a^Tx_i)+\sum_{i=1}^M\mu_i(a^Ty_i)+1^T\lambda+1^T\mu \\ =\underset{a}{inf}((1/2)\begin{Vmatrix}a \end{Vmatrix}_2+a^T(-\sum_{i=1}^N\lambda_ix_i+\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu \\ =\underset{a}{sup}-(1/2)(\begin{Vmatrix}a \end{Vmatrix}_2+a^T(-\sum_{i=1}^N\lambda_ix_i+\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu \\ =\underset{a}{sup}(-(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+a^T(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i))+1^T\lambda+1^T\mu\\ \underset{a}{sup}(-(1/2)\begin{Vmatrix}a \end{Vmatrix}_2+(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)^Ta)+1^T\lambda+1^T\mu\\ =f^*(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)+1^T\lambda+1^T\mu$

其中 f^* 是 $f=(1/2)\begin{Vmatrix} a\end{Vmatrix}_2$ 的共轭函数，故

$f^*(\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i)=\left\{\begin{matrix} 0 & \begin{Vmatrix} \sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i\end{Vnatrix}\leq 1/2\\ \infty & else \end{matrix}\right.$

故对偶问题：

$maximize \, \,1^T\lambda+1^T\mu \\ subject \,\, to \, \, 2\begin{Vmatrix}\sum_{i=1}^N\lambda_ix_i-\sum_{i=1}^M\mu_iy_i \end{Vmatrix}\leq 1,1^T\lambda=1^T\mu,\lambda \geq 0,\mu \geq 0$

令 $\theta_i = \lambda_i/1^T\lambda,\gamma _i=\mu_i/1^T\mu,t=\frac{1}{1^T\lambda+1^T\mu}$

对偶问题等价于：

$minimize \, \, t\\ subject \,\, to \, \, \begin{Vmatrix}\sum_{i=1}^N\theta_ix_i-\sum_{i=1}^M\gamma _iy_i \end{Vmatrix}_2\leq t,\theta \succeq 0,1^T\theta=1,\gamma \succeq 0,1^T\gamma =1$

线性不可分的近似线性分类

如上图，两个集合线性不可分，此时没有一个仿射函数可以将两个集合分开，于是引入松弛量，即放宽约束，

$a^Tx_i+b\geq 1-u_i,a^Ty_i+b\leq -1+v_i$

此时问题可以表述为：

$minimize \,\, 1^Tu+1^Tv\\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 -u_i&i=1,\cdots,N \\ a^Ty_i+b\leq -1 +v_i& i=1\cdots,M \end{matrix},u\succeq 0,v\succeq 0$

即寻找一个可以使点集更好的分类，同时最小化约束的放宽程度。

支持向量分类器

标准支持向量分类器定义为：

$minimize \,\, \begin{Vmatrix}a \end{Vmatrix}_2+\gamma (1^Tu+1^Tv)\\ subject\,\, to\,\,\begin{matrix} a^Tx_i+b\geq 1 -u_i&i=1,\cdots,N \\ a^Ty_i+b\leq -1 +v_i& i=1\cdots,M \end{matrix},u\succeq 0,v\succeq 0$