判别分析的框框很大,今天给大家写写线性判别和二次判别,这两个是判别分析中最常见也是最基本的,希望能够给大家写明白。
首先给出判别分析的定义:
Linear discriminant analysis (LDA) is a method used in statistics and other fields, to find a linear combination of features that characterizes or separates two or more classes of objects. The resulting combination may be used as a linear classifier, or, more commonly, for dimensionality reduction before later classification.
从上面的定义可以知道判别分析有两个作用,一个是降维dimensionality reduction,另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面,并且还能使得我们的数据类别非常好区分。
降维得到的,或者你可以简单的理解为降维过后的数据维度就叫做判别函数,就如下图一样,经过判别分析本来有很多特征的原始数据就只剩下几个判别函数了。

维数灾难curse of dimensionality
有同学要好奇了,我为什么要降维呢?
首先数据维度过高(预测变量过多)存在的首要问题就是很多维度并不能给模型提供有用的信息,甚至会干扰模型表现,当维数增加,数据会变得稀疏,就是同一个数据,维度越高个案之间的距离会越远,就像下图中示意的一样:
for the same number of cases in a dataset, if you increase the feature space, the cases get further apart from each other, and there is more empty space between them

你可以看到数据随着维度变高变得越来越稀疏,不利于特征工程,也更容易造成过拟合。
判别分析的原理
想象一下,我现在有2个变量,我想通过这两个变量将我的样本分为2类,那么LDA要做的就是找到数据的新的表示方法,也就是将数据降维(通过投影实现),降维后找到一条可以最好地分割两个类别的线(判别函数)。
那么我们的思路是先确定每个类别的中点,然后让下面这个式子的取值最大
也就是说,我们希望两个类别均值的差异越大越好,希望两个类别的组内变异越小越好。

就像下面这个图显示的一样,我们把黑绿两个类别都投影到图中的斜线上,就形成了图的右边部分,这个时候上面式子的值是最大的,

那么有的同学会问,投影过后我只让两个类别中点距离最大行不行呢?
看下图,图中左边的投影线保证了两个类别的中点的距离最大,但是这条投影线并不如右图的判别效果好。所以LDA的追求一定是要两个类别均值的差异越大越好,希望两个类别的组内变异越小越好。

<