1、引入问题
给定一组数据:(x1,y1),...,(xN,yN)(x_1,y_1),...,(x_N,y_N)(x1,y1),...,(xN,yN),其中,xi∈R2,yi∈{±1}x_i\in R^2,y_i\in \left\{
\begin{matrix}
\pm1
\end{matrix}
\right\}xi∈R2,yi∈{±1}。
显然,这是点的二分类问题。

分类方法有很多,I want:将二维点投影到一维,使得同类近,异类远,这是一个idea。

2、计算投影
将二维空间中的点xxx投影到过原点的直线。
过原点直线上的每个点都可以表示为:λw\lambda wλw,其中www表示这条直线上的单位向量,有∣∣w∣∣=1,∣∣w∣∣2=wtw=1||w||=1,||w||^2=w^tw=1∣∣w∣∣=1,∣∣w∣∣2=wtw=1,λ\lambdaλ在变,只有一个变量。

将xxx投影到λw\lambda wλw所在直线,如上图所示,所谓投影,向量vvv垂直于λw\lambda wλw所在直线,x=λw+vx=\lambda w+vx=λw+v。
将x=λw+vx=\lambda w+vx=λw+v左右两边同左乘以wtw^twt,得:wtx=λwtw+wtvw^t x=\lambda w^t w+w^t vwtx=λwtw+wtv
由于wtw=∣∣w∣∣2=1w^tw=||w||^2=1wtw=∣∣w∣∣2=1,向量vvv垂直于λw\lambda wλw所在直线,推导出:λ=wtx\lambda=w^t xλ=wtx
也就是说,xxx往www方向上作投影,得到了(wtx)w(w^tx)w(wtx)w这个向量,即:x→w投影(wtx)wx\overset{投影} {\underset{w}\rightarrow}(w^tx)wxw→投影(wtx)w
事实上,www是个固定的量,相当于xix_ixi和wtxiw^tx_iwtxi一一对应,即:
xi→wtxix_i\rightarrow w^tx_ixi→wtxi
从而,两类点的对应如下:
1→{yi=1:wtxi}1\rightarrow \left\{
\begin{matrix}
y_i=1:w^tx_i
\end{matrix}
\right\}1→{yi=1:wtxi}
−1→{yi=−1:wtxi}-1\rightarrow \left\{
\begin{matrix}
y_i=-1:w^tx_i
\end{matrix}
\right\}−1→{yi=−1:wtxi}
3、异类远
异类远,应使投影后两类的均值尽可能大,即:
θ1=(∑yi=1wtxi)/C1=wt(∑yi=1xi)/C1=wtμ1\theta_{1}=(\displaystyle\sum_{y_i=1}w^tx_i)/C_1=w^t(\displaystyle\sum_{y_i=1}x_i)/C_1=w^t\mu_1θ1=(yi=1∑wtxi)/C1=wt(yi=1∑xi)/C1=wtμ1
θ−1=(∑yi=−1wtxi)/C−1=wt(∑yi=−1xi)/C−1=wtμ−1\theta_{-1}=(\displaystyle\sum_{y_i=-1}w^tx_i)/C_{-1}=w^t(\displaystyle\sum_{y_i=-1}x_i)/C_{-1}=w^t\mu_{-1}θ−1=(yi=−1∑wtxi)/C−1=wt(yi=−1∑xi)/C−1=wtμ−1
满足:∣θ1−θ−1∣|\theta_{1}-\theta_{-1}|∣θ1−θ−1∣尽可能大。
其中,C1,C−1C_1,C_{-1}C1,C−1分别为第一类点和第二类点的个数,μ1,μ−1\mu_1,\mu_{-1}μ1,μ−1分别为第一类点和第二类点的期望。
∣θ1−θ−1∣2=∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t=wt(μ1−μ−1)(μ1−μ−1)tw|\theta_{1}-\theta_{-1}|^2=|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t=w^t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^tw∣θ1−θ−1∣2=∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t=wt(μ1−μ−1)(μ1−μ−1)tw
将(μ1−μ−1)(μ1−μ−1)t(\mu_1-\mu_{-1})(\mu_1-\mu_{-1})^t(μ1−μ−1)(μ1−μ−1)t记作矩阵T,则异类远的问题转化为优化问题:
maxwtTw(1)max\quad w^tTw\tag{1}maxwtTw(1)
∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t|w^t(\mu_1-\mu_{-1})|^2=w^t(\mu_1-\mu_{-1})(w^t(\mu_1-\mu_{-1}))^t∣wt(μ1−μ−1)∣2=wt(μ1−μ−1)(wt(μ1−μ−1))t的推导技巧:
wt(μ1−μ−1)w^t(\mu_1-\mu_{-1})wt(μ1−μ−1)是一个数,转置后仍是这个数。
4、同类近
同类近,应使投影后每一类的方差尽可能小,即:
∑yi=1(wtxi−θ1)2+∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2+\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2yi=1∑(wtxi−θ1)2+yi=−1∑(wtxi−θ−1)2
其中,∑yi=1(wtxi−θ1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2yi=1∑(wtxi−θ1)2和∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2yi=−1∑(wtxi−θ−1)2分别为投影后第一类点和第二类点的方差。
∑yi=1(wtxi−θ1)2\displaystyle\sum_{y_i=1}(w^tx_i-\theta_1)^2yi=1∑(wtxi−θ1)2
=∑yi=1(wtxi−wtμ1)2=\displaystyle\sum_{y_i=1}(w^tx_i-w^t\mu_1)^2=yi=1∑(wtxi−wtμ1)2
=∑yi=1(wt(xi−μ1))2=\displaystyle\sum_{y_i=1}(w^t(x_i-\mu_1))^2=yi=1∑(wt(xi−μ1))2
=∑yi=1wt(xi−μ1)(xi−μ1)tw=\displaystyle\sum_{y_i=1}w^t(x_i-\mu_1)(x_i-\mu_1)^tw=yi=1∑wt(xi−μ1)(xi−μ1)tw
=wt(∑yi=1(xi−μ1)(xi−μ1)t)w=w^t(\displaystyle\sum_{y_i=1}(x_i-\mu_1)(x_i-\mu_1)^t)w=wt(yi=1∑(xi−μ1)(xi−μ1)t)w
=wtΣ1w=w^t\Sigma_1w=wtΣ1w
同理,∑yi=−1(wtxi−θ−1)2\displaystyle\sum_{y_i=-1}(w^tx_i-\theta_{-1})^2yi=−1∑(wtxi−θ−1)2==wtΣ−1w=w^t\Sigma_{-1}w=wtΣ−1w
所以,同类远的问题转化为了优化问题:(xi−μ1)(xi−μ1)t(x_i-\mu_1)(x_i-\mu_1)^t(xi−μ1)(xi−μ1)t为第一类点的协方差矩阵。
minwtΣ1w+wtΣ−1wmin\quad w^t\Sigma_1w+w^t\Sigma_{-1}wminwtΣ1w+wtΣ−1w记作:
minwtSw(2)min\quad w^tSw\tag{2}minwtSw(2)
5、进一步对问题转化
联立(1)(2),
{maxwtTwminwtSw(3)
\begin{cases}
max\quad w^tTw\\
min\quad w^tSw
\end{cases}
\tag{3}
{maxwtTwminwtSw(3)
一个求最大,一个求最小,不好处理,将(3)简化为一个单目标的优化问题:
maxwwtTwwtSw(4)\underset{w}{max}\frac{w^tTw}{w^tSw}\tag{4}wmaxwtSwwtTw(4)
进一步将(4)转化为标准形式的优化问题:
{min−wtTwsubjecttowtSw=1(5)
\begin{cases}
min\quad -w^tTw\\
subject \quad to\quad w^tSw=1
\end{cases}
\tag{5}
{min−wtTwsubjecttowtSw=1(5)
这是一个有约束的优化问题。
(4)→\rightarrow→(5)为什么可以这么做呢?
因为www是一个达成一定尺度的参数,目标函数不变。
该文探讨了二维点的二分类问题,通过将点投影到过原点的直线来实现同类点接近、异类点远离的目标。文中介绍了如何计算投影,并通过最大化两类点投影均值之差和最小化每类点投影后的方差来优化问题。最终,将两个目标合并为一个有约束的优化问题,寻找最佳投影方向。
2126

被折叠的 条评论
为什么被折叠?



