Statistic Learning 3_qda 协方差矩阵-优快云博客

本文链接：https://blog.youkuaiyun.com/GodWriter/article/details/105588212

本文探讨了LDA（线性判别分析）和QDA（二次判别分析）在分类任务中的应用，包括它们的数学原理、决策边界的特性以及与逻辑回归和KNN的对比。通过分析不同情况下哪种方法更优，帮助读者理解如何选择合适的分类算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. LDA for p > 1

假设 $X=(x_1, x_2, ..., x_p)$ 来自多元高斯分布，关于K类有着不同的均值，但协方差矩阵相同。

多元高斯分布的一些直观概念

假设每个 $p r e d i c t o r$ 符合一维高斯分布，每对 $p r e d i c t o r$ 中存在相关性。
- 当 $p = 2$ 时，表面积的高度代表了 $x_1, x_2)$ 那边附近的概率；若言这 $x_1$ 轴或者 $x_2$ 轴切开，那得到的截面都是一维高斯分布的形状
- 当 $p = 2$ 时，若 $Var(x_1) = Var(x_2)$ ， $Cor(x_1, x_2)=0$ ，那么表面积将会是钟型。若 $x_1,x_2$ 存在相关性，或者协方差矩阵不相等时，那么表面积的形状就是椭圆了。

多元高斯分布的相关定义

一个p维的多元高斯分布的随机变量表示为 $X∼N(μ,Σ)X\sim N(\mu, \Sigma)$
- 其中 $E(x)=μE(x)=\mu$ 是 $X$ 的均值，一个 $1×p1\times p$ 维的向量
- $\Sigma$ 是 $X$ 的 $p×pp\times p$ 维的协方差矩阵
- 多元高斯分布的密度函数定义为：
  
  $\frac{1}{(2\pi)^{\frac{p}{2}}\mid \Sigma\mid^{\frac{1}{2}}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$
当 $p > 1$ 时， $L D A$ 的分类器第 $k$ 个类别中的观测对象服从多元高斯分布 $N(μk,Σ)N(\mu_k, \Sigma)$ ，有着不同的均值 $μk\mu_k$ ，相同的协方差矩阵 $Σ\Sigma$ 。将第 $k$ 个类别的 $f_k(X=x)$ 带入贝叶斯公式中，经代数变换后，对于 $X = x$ 得到如下式子：

$δk(x)=xTΣ−1μk−12μkTΣ−1μk+logπk)\delta_k(x) = x^T\Sigma^{-1}\mu_k - \frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k + log\pi_k)$

最大的 $δk(x)\delta_k(x)$ 所对应的类别 $k$ 即为 $X = x$ 所属的类别。
假设现在有3个类别， $μk\mu_k$ 不同，但 $Σ\Sigma$ 相同。那么将会有3条线充当贝叶斯的决策边界，**因为3个类对应了3对类别：1和2，1和3，2和3。**为了得到 $δk\delta_k$ ，就需要去估计未知参数 $μ1,μ2,...,μk\mu_1, \mu_2, ..., \mu_k$ ； $π1,π2,...,πk\pi_1, \pi_2, ..., \pi_k$ ；以及 $Σ\Sigma$ 。其公式和 $p = 1$ 时的十分类似，同样 $δk(x)\delta_k(x)$ 是 $x$ 的线性函数，这说明 $L D A$ 依赖于其元素的线性组合。

LDA应用于Default数据集

当 $L D A$ 应用于 $D e f a u l t$ 数据集的时候，可以发现 $L D A$ 拟合10000条训练数据的训练误差为 $2.75%2.75\%$ 。这听起来很低，但需要注意两点：
- 训练误差往往低于测试误差。话句话说，当其用于预测一批新的个体是否会 $d e f a u l t$ 的时候，将会表现的很糟糕。这是因为我们调整了模型的参数使得其在训练集上表现更好，但测试集和训练集的分布还是有差距的。
- 由于训练集中，仅有 $3.33%3.33\%$ 的个体 $d e f a u l t$ 了，在不考虑 $b a l a n c e$ 和 $s t u d e n t s t a t u s$ 的情况下，一个简单的分类器总会倾向于预测一个个体将不会 $d e f a u l t$ 。换句话说，一个没有任何参数的分类器预测所有样本为正样本，它的错误率也仅比 $L D A$ 高一点而已。
混肴矩阵

在使用 $L D A$ 的过程中， $L D A$ 可能误把正样本当成负样本；把负样本当成正样本。使用混肴矩阵可以明确的表示这些指标。
- 对于 $d e f a u l t$ 数据来说，9667人中仅有23人被标记错误会 $d e f a u l t$ ，错误率很低。但是，333个人会 $d e f a u l t$ 的人，仅仅检测出了81个人，错误率高达 $75.7\%$ 。
- 一般用 $s e n s i t i v i t y$ 和 $s p e c i f i c i t y$ 来描述医护和生物方面的分类指标。在 $d e f a u l t$ 数据集中， $s e n s i t i v i t y$ 是被检测到真正会 $d e f a u l t$ 的人，只有 $75.7\%) = 24.3\%$ ；而 $s p e c i f i c i t y$ 是被检测到不会 $d e f a u l t$ 的人，高达 $(1−239667)×100%=99.8%(1-\frac{23}{9667}) \times 100\% = 99.8\%$
为什么 $L D A$ 在辨别 $d e f a u l t$ 人员时表现的如此差劲？如何去避免这个问题呢？
- $L D A$ 尝试去近似贝叶斯分类器，在所有类别中取得较低的整体错误率。为此，贝叶斯分类器为产生尽可能少的错误，再者正负样本不平衡，那么分类器倾向于预测测试样本为正样本。
- 降低置信度，如 $Pr(default=Yes∣X=x)>0.2Pr(default=Yes\mid X=x) > 0.2$ ，那么更多的人将会被预测为 $d e f a u l t = Y e s$ 。对于银行来说，预测错几个正样本没问题，但遗漏了负样本将会是致命的问题。

ROC曲线

ROC曲线的横坐标是 $F a l s e P o s i t i v e R a t e$ ，纵坐标是 $T r u e P o s i t i v e R a t e$ 。
ROC曲线下的面积 $A U C$ 反映了当前分类器的好坏。若 $A U C$ 越大，说明该分类器越好。**ROC曲线各对用的 $F P, T P$ **值都是调节置信度得到的，但置信度并没有反应在曲线图中。
若是 $p r e d i c t o r s$ 和预测的 $R e s p o n s e$ 无关，那么 $R O C$ 曲线应该在 $y = x$ 下面。

2. Quadratic Discriminant Analysis

Quadratic Discriminant Analysis（二次型判别分析）

$L D A$ 假设样本来自多元高斯分布，均值向量不同，但 $k$ 个类别的协方差矩阵相同。 $Q D A$ 和 $L D A$ 类似，但 $Q D A$ 假设每个类别都有不同的协方差矩阵，即来自第 $k$ 类的样本服从：

$\sim N(\mu_k, \Sigma_k)$

在这个假设下，贝叶斯分类器可简化为：

$δk(x)=−12(x−μk)TΣk−1(x−μk)−12log∣Σk∣+logπk=−12xTΣk−1x+xTΣk−1μk−12μkTΣk−1μk−12log∣Σk∣+logπk\delta_k(x) = -\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k) - \frac{1}{2}log\mid\Sigma_k\mid + log\pi_k \\ = -\frac{1}{2}x^T\Sigma_k^{-1}x + x^T\Sigma_k^{-1}\mu_k - \frac{1}{2}\mu_k^T\Sigma_k^{-1}\mu_k -\frac{1}{2}log\mid\Sigma_k\mid + log\pi_k$

所以， $Q D A$ 需要估计 $Σk,μk,πk\Sigma_k,\mu_k,\pi_k$ ，然后将 $X = x$ 代入 $δk(x)\delta_k(x)$ ，最大的那一项所对应的 $k$ 即为 $X = x$ 所属的类别。由于 $x$ 在上式中是二次函数，故 $Q D A$ 由此得名。

QDA和LDA，用哪个更好？

为什么要假设 $X$ 是否共享同一协方差矩阵呢？或者 $L D A$ ， $Q D A$ ，用哪个更好？回答在于，bias-variance trade-off。

若现在有 $p$ 个 $p r e d i c t o r s$ ，为每一类别估计一个协方差矩阵总共需要 $p(p+1)2\frac{p(p+1)}{2}$ 个参数， $Q D A$ 为每个类别都估计了 $Σ\Sigma$ ，那么就需要 $kp(p+1)2k\frac{p(p+1)}{2}$ 个参数。若有50个 $p r e d i c t o r s$ ，那么就接近 $1275$ 个参数，参数较 $L D A$ 多了很多。所以 $L D A$ 的灵活度没有 $Q D A$ 高。但反过来讲， $L D A$ 的 $v a r i a n c e$ 更低，可能提高模型的能力。但需要注意的是，一旦 $L D A$ 关于 $k$ 个类共享同一个协方差矩阵的假设是错误的，那 $L D A$ 就会受到高偏差的影响。
一般来说，若训练样本较少， $L D A$ 比 $Q D A$ 更加适合，因为减少 $v a r i a n c e$ 很重要。相反，若是训练集很大，分类器的 $v a r i a n c e$ 不是主要考虑的问题，或者说 $k$ 类共享同一个协方差矩阵的假设站不住脚的，这时候就推荐使用 $Q D A$ 了。当贝叶斯的决策边界接近于非线性的时候， $Q D A$ 是明显优于 $L D A$ 的。

3. A comparison of Classification Methods

主要比较： $L o g i s t i c R e g r e s s i o n$ ， $L D A$ ， $Q D A$ ， $K N N$ 。

首先比较 $L o g i s t i c R e g r e s s i o n$ 和 $L D A$
- $L D A$ ： $δk(x)=xμkσ2−μk22σ2+log(πk)\delta_k(x) = x\frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k)$
  
  对于二分类问题，且 $p = 1$ 时， ${P1(x)P2(x)=1−P1(x)\begin{cases} P_1(x) \\ P_2(x)=1-P_1(x) \end{cases}$ ，可以推出：
  
  $公式(1)log(\frac{P_1(x)}{1-P_2(x)}) = log(\frac{P_1(x)}{P_2(x)}) = c_0 + c_1x ~~~~~~~~ 公式(1)$
  
  这里的 $c_0$ ， $c_1$ 都是 $μ1,μ2,σ2\mu_1, \mu_2, \sigma^2$ 的方法。
- 在 $L o g i s t i c R e g r e s s i o n$ 中，
  
  $公式(2)log(\frac{P_1}{1-P_1}) = \beta_0 + \beta_1x ~~~~~~~~ 公式(2)$
- 公式(1)和公式(2)都是 $x$ 的线性方法，因此 $L o g i s t i c R e g r e s s i o n$ 和 $L D A$ 都产生了线性决策边界。两个方法唯一不同的是， $L o g i s t i c R e g r e s s i o n$ 和 $L D A$ 只在拟合的过程中不同，大多数人可能认为它俩结果类似，虽然如此但也并不一直如此。那么它们分别在什么时候用呢？
  - $L D A$ 假设样本来自高斯分布，且每个类别的方差相同。当该假设被满足时， $L D A$ 优于 $L o g i s t i c R e g r e s s i o n$ 。
  - 当高斯分布的假设未被满足时， $L o g i s t i c R e g r e s s i o n$ 优于 $L D A$ 。
再谈谈 $K N N$
- 当预测 $X = x$ 的类别时， $K N N$ 使用离 $x$ 最近的 $k$ 个样本中，出现此处最多的类别作为 $x$ 的类别。
- 由于 $K N N$ 是完全没有参数的方法，即对于决策边界的形状没有任何的约束，当真实决策边界为非线性时，使用 $K N N$ 将会超越 $L D A$ 和 $L o g i s t i c R e g r e s s i o n$ 。
然后谈谈 $Q D A$
- $Q D A$ 是无参数 $K N N$ ，线性 $L D A$ ， $L o g i s t i c R e g r e s s i o n$ 三个方法折衷的一个版本。由于 $Q D A$ 假设了决策边界为二次型，比起线性模型，能解决更广的问题。虽然没有 $K N N$ 灵活，当训练样本数量有限的时候， $Q D A$ 能产生较好的效果，因为它确实对决策边界做了假设。
最后总结一下各个方法应用的场景
- 当真实的决策边界为线性时， $L D A$ ， $L o g i s t i c R e g r e s s i o n$ 都会产生比较好的效果。
- 当真实的决策边界为非线性时， $Q D A$ 表现更加出色
- 当真实的决策边界更为复杂时， $K N N$ 能够表现的更好，但需合理的控制 $K$ 值。