今天小A来为大家详细的介绍线性判别分析LDA(Linear Discriminant Analysis)的算法原理,内容会含有很多数学公式,小A会一步一步详细的介绍。希望大家不要看到公式就害怕,耐心的看下去,其实并没有想象中的难哦。
首先介绍一下LDA的算法思想,它的思想非常朴素:就是设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能的远。那么我们在对新样本分类时,也可以将该样本投影到这条直线上,再根据投影点的位置来确定新样本的类别。比如下图所示:
我们可以看到,右图明显比左图具有更好的投影效果,红类和蓝类没有交集,并且各自都很紧凑。而LDA要做的就是找到这样一条能够最佳投影的直线,来进行新数据分类也可以降维。
给定数据集D={xi,yi}。为了方便说明,我们假设样例xi是二维数据,即样例具有两类特征。yi是分类结果属于{0,1}。我们要做的就是找一条能对样本数据最佳分类的方向为w的直线。在投影之前,各类样本的均值是:
投影之后,各类样本的均值变成: