智能计算数学基础——分类问题

原创已于 2022-10-13 23:02:11 修改 · 356 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#智能计算数学基础 #分类问题 #优化问题

于 2021-07-10 16:10:01 首次发布

智能计算数学基础专栏收录该内容

6 篇文章

订阅专栏

该文探讨了二维点的二分类问题，通过将点投影到过原点的直线来实现同类点接近、异类点远离的目标。文中介绍了如何计算投影，并通过最大化两类点投影均值之差和最小化每类点投影后的方差来优化问题。最终，将两个目标合并为一个有约束的优化问题，寻找最佳投影方向。

1、引入问题

给定一组数据： $x_1,y_1)，...，(x_N,y_N)$ ，其中， $xi∈R2,yi∈{±1}x_i\in R^2,y_i\in \left\{ \begin{matrix} \pm1 \end{matrix} \right\}$ 。
显然，这是点的二分类问题。
在这里插入图片描述
分类方法有很多，I want：将二维点投影到一维，使得同类近，异类远，这是一个idea。

2、计算投影

将二维空间中的点 $x$ 投影到过原点的直线。
过原点直线上的每个点都可以表示为： $λw\lambda w$ ，其中 $w$ 表示这条直线上的单位向量，有 $w||=1,||w||^2=w^tw=1$ ， $λ\lambda$ 在变，只有一个变量。
在这里插入图片描述

将 $x$ 投影到 $λw\lambda w$ 所在直线，如上图所示，所谓投影，向量 $v$ 垂直于 $λw\lambda w$ 所在直线， $x=λw+vx=\lambda w+v$ 。
将 $x=λw+vx=\lambda w+v$ 左右两边同左乘以 $w^t$ ,得： $wtx=λwtw+wtvw^t x=\lambda w^t w+w^t v$
由于 $w^tw=||w||^2=1$ ，向量 $v$ 垂直于 $λw\lambda w$ 所在直线，推导出： $λ=wtx\lambda=w^t x$
也就是说， $x$ 往 $w$ 方向上作投影，得到了 $w^tx)w$ 这个向量，即： $x→w投影(wtx)wx\overset{投影} {\underset{w}\rightarrow}(w^tx)w$
事实上， $w$ 是个固定的量，相当于 $x_i$ 和 $w^tx_i$ 一一对应，即：
$xi→wtxix_i\rightarrow w^tx_i$
从而，两类点的对应如下：
$1→{yi=1:wtxi}1\rightarrow \left\{ \begin{matrix} y_i=1:w^tx_i \end{matrix} \right\}$
$−1→{yi=−1:wtxi}-1\rightarrow \left\{ \begin{matrix} y_i=-1:w^tx_i \end{matrix} \right\}$

3、异类远

异类远，应使投影后两类的均值尽可能大，即：
$θ1=(∑yi=1wtxi)/C1=wt(∑yi=1xi)/C1=wtμ1\theta_{1}=(\displaystyle\sum_{y_i=1}w^tx_i)/C_1=w^t(\displaystyle\sum_{y_i=1}x_i)/C_1=w^t\mu_1$
$θ−1=(∑yi=−1wtxi)/C−1=wt(∑yi=−1xi)/C−1=wtμ−1\theta_{-1}=(\displaystyle\sum_{y_i=-1}w^tx_i)/C_{-1}=w^t(\displaystyle\sum_{y_i=-1}x_i)/C_{-1}=w^t\mu_{-1}$
满足： $∣θ1−θ−1∣|\theta_{1}-\theta_{-1}|$ 尽可能大。
其中， $C_1,C_{-1}$ 分别为第一类点和第二类点的个数， $μ1,μ−1\mu_1,\mu_{-1}$ 分别为第一类点和第二类点的期望。

$∣θ1−θ−1∣2=∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t=wt(μ1−μ−1)(μ1−μ−1)tw|\theta_{1}-\theta_{-1}|^2=|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t=w^t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^tw$
将 $(μ1−μ−1)(μ1−μ−1)t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^t$ 记作矩阵T，则异类远的问题转化为优化问题：
$maxwtTw(1)max\quad w^tTw\tag{1}$

$∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t$ 的推导技巧：
$wt(μ1−μ−1)w^t(\mu_1-\mu_{-1})$ 是一个数，转置后仍是这个数。

4、同类近

同类近，应使投影后每一类的方差尽可能小，即：
$∑yi=1(wtxi−θ1)2+∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2+\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2$
其中， $∑yi=1(wtxi−θ1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2$ 和 $∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2$ 分别为投影后第一类点和第二类点的方差。

$∑yi=1(wtxi−θ1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2$
$=∑yi=1(wtxi−wtμ1)2=\displaystyle\sum_{y_i=1}(w^tx_i-w^t\mu_1)^2$
$=∑yi=1(wt(xi−μ1))2=\displaystyle\sum_{y_i=1}(w^t(x_i-\mu_1))^2$
$=∑yi=1wt(xi−μ1)(xi−μ1)tw=\displaystyle\sum_{y_i=1}w^t(x_i-\mu_1)(x_i-\mu_1)^tw$
$=wt(∑yi=1(xi−μ1)(xi−μ1)t)w=w^t(\displaystyle\sum_{y_i=1}(x_i-\mu_1)(x_i-\mu_1)^t)w$
$=wtΣ1w=w^t\Sigma_1w$
同理， $∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2$ = $=wtΣ−1w=w^t\Sigma_{-1}w$

$(xi−μ1)(xi−μ1)t(x_i-\mu_1)(x_i-\mu_1)^t$ 为第一类点的协方差矩阵。

所以，同类远的问题转化为了优化问题：

$minwtΣ1w+wtΣ−1wmin\quad w^t\Sigma_1w+w^t\Sigma_{-1}w$ 记作：
$minwtSw(2)min\quad w^tSw\tag{2}$

5、进一步对问题转化

联立(1)(2)，
$\begin{cases} max\quad w^tTw\\ min\quad w^tSw \end{cases} \tag{3}$
一个求最大，一个求最小，不好处理，将(3)简化为一个单目标的优化问题：
$maxwwtTwwtSw(4)\underset{w}{max}\frac{w^tTw}{w^tSw}\tag{4}$
进一步将(4)转化为标准形式的优化问题：
$\begin{cases} min\quad -w^tTw\\ subject \quad to\quad w^tSw=1 \end{cases} \tag{5}$
这是一个有约束的优化问题。