线性判别分析
线性判别分析又称为Fisher判别分析,因为其最早是由Fisher提出来处理二分类问题。线性判别分析的思想非常的简单,其就是要确定一条直线,当所有样本点投影到该条直线上的时候,能够保证同类样本的投影点尽可能集中,而不同类的样本的投影点则相聚较远。当有一个新样本来的时候,可以将该样本投影到这条直线上并归类到最近的类别中心所在类。
假设我们现在样本点归属于两个类A和B,这两类样本的均值向量分别为 μA 和 μB ,方差分别为 ΣA 和 ΣB ,又假设我们现在已经确定了一条直线 y=ωTx ,那么这两类样本到直线投影点的中心分别为 ωTμA 和 ωTμB ,两类样本的协方差分别为 ωTΣAω 和 ωTΣBω 。直线与样本的关系如下图所示:
我们可以看到我们希望所寻找的直线能够使得同类样本在直线上的投影尽可能的近,而不同类样本之间的距离尽可能的远。对于同类样本,我们利用协方差来衡量样本投影点之间的密集程度,而不同类样本,则是利用另个列别中心的距离来衡量。故我们可以得到想要最大化的目标是
J=(ωTμA−ωTμb)(ωTμA−ωTμb)TωTΣAω+ωTΣBω