R机器学习：分类算法之判别分析LDA,QDA的原理与实现

最新推荐文章于 2024-08-29 22:32:12 发布

原创

最新推荐文章于 2024-08-29 22:32:12 发布 · 1.9k 阅读

22 ·

CC 4.0 BY-SA版权

本文介绍线性判别分析(LDA)和二次判别分析(QDA)，这两种方法用于数据降维和分类。文中详细解释了判别分析的原理，并通过实际案例展示了如何使用这些技术进行预测。

判别分析的框框很大，今天给大家写写线性判别和二次判别，这两个是判别分析中最常见也是最基本的，希望能够给大家写明白。

首先给出判别分析的定义：

Linear discriminant analysis (LDA) is a method used in statistics and other fields, to find a linear combination of features that characterizes or separates two or more classes of objects. The resulting combination may be used as a linear classifier, or, more commonly, for dimensionality reduction before later classification.

从上面的定义可以知道判别分析有两个作用，一个是降维dimensionality reduction，另一个是分类classifier。就是说这个方法可以将多维数据投射到低维平面，并且还能使得我们的数据类别非常好区分。

降维得到的，或者你可以简单的理解为降维过后的数据维度就叫做判别函数，就如下图一样，经过判别分析本来有很多特征的原始数据就只剩下几个判别函数了。

维数灾难curse of dimensionality

有同学要好奇了，我为什么要降维呢？

首先数据维度过高（预测变量过多）存在的首要问题就是很多维度并不能给模型提供有用的信息，甚至会干扰模型表现，当维数增加，数据会变得稀疏，就是同一个数据，维度越高个案之间的距离会越远，就像下图中示意的一样：

for the same number of cases in a dataset, if you increase the feature space, the cases get further apart from each other, and there is more empty space between them