（二）Linear Discriminant Analysis - Part II

最新推荐文章于 2024-07-16 03:59:33 发布

原创

最新推荐文章于 2024-07-16 03:59:33 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

本文深入探讨了线性判别分析（LDA）在处理有偏估计时遇到的问题，特别是当样本数小于维数时的奇异协方差矩阵。文章介绍了正则化LDA的概念，包括非正则和正则化方法，以减少估计变化并控制偏差。正则化参数的选择影响着偏差-方差权衡，通过调整参数可以在LDA和QDA之间找到最佳平衡。此外，文章还阐述了正则化在多类分类中的应用，以及Fisher优化准则在降维和分类中的作用。

（一）正则化的引入（Regularized LDA）

在利用线性判别分析进行分类时，在进行协方差估计是得到，这个协方差的估计是一个有偏估计（biased estimates）。

因为其协方差是正定的，因此可以进行特征值分解，

其逆相应为：

我们利用协方差矩阵的逆，来进行分类判别，得到其判别得分函数为

可以看到，判别得分对于很小的特征值将有很大的比重，并且其方向与这个对应的特征向量有很大相关性。

协方差矩阵产生了有偏估计的特征值。最大的特征值，是偏差最高的（biased high）;最小的特征值，其偏差值是很小的

（biased towards values that are too low）。

对于偏差，当估计的特征值趋向于相等时（equality），偏差是显著的（most pronounced）【我理解是偏差最大的】；当其特征值是相差高度不同时（highly disparate）,其偏差有很小剧烈程度的响应（corresponding less severe）。

当样本数减少时，其偏差在上两种情况下都会有所增加（in all cases, this phenomenon becomes more pronounced as the sample size decreases.）。

我们进行分类时，得到的样本数小于维数时，即，这时样本的协方差是奇异的（singular with rank ）, 且最小的特征值第（D-Nk + 1）个特征值开始，估计值将为0，这是对应的特征向量将会是任意的正交约束的向量。

这个系统的偏差变化现象在判别分析中与低变化最小特征值子空间跨度（spanned）（指最小的样本特征值其特征向量构成的空间）是正相关的重要关系。因为最大的变化将会发生在判别得分函数中，判别函数得分函数与低样本变化测度空间有很大相关性。

（二）正则化

变换协方差矩阵方法一（非正则）：对与上述的协方差特征值的问题，我们可以进行特征值的变形修正（correcting the eigenvalue distortion),（包括方法【参加Regularized Discriminant Analysis -JEROME H. FRIEDMAN P7】）,总的方向就是最小均方误差，在进行特征值估计时。将协方差矩阵变为非奇异的（unsingular）。

方法二（正则）：正则法，在解决 ill- and poorly- posed inverse 问题时很成功。

当得到的样本数小于维数时，即，就属于这种问题，通过应用正则，一种尝试是提高估计（一种正则方法），通过偏置这些远离样本基的值，使这些值被视为”物理上更合理的“（improve the estimates by biasing them away from their sample based values towards values that are deemed to be more "physically plausible".）[Cornfield (1967) suggested applying James-Stein shrinkage to the individual class location estimates.]

正则的作用是：正则减少了与样本基相关的估计的变化程度，但是以增大偏差潜在威胁作为补偿（因为更趋于相同特征值了）。

这个偏差的变化的平衡通常通过正则一个或者多个参数（这里为），来控制这个偏置的强度，即向“plausible" 集偏置的一组参数。（this bias variance trade-off is generally regulated by one or more parameters that control the strength of the biasing towards the "plausible" set of parameter values.）

通过对样本值进行正则化引入参数，这时增加的偏差（即的变化），将正比与这些合理可信集(“plausible ”set ) 参数对实际样本分布表示的近似程度。因而，如果有一个很差的猜测（a bad guess），即偏置的合理可信集参数与实际样本分布差别很大，这时，将会有很小的正则；若是个很好的猜测，将会是 high degree 正则，这是很大程度减少了变化（与样本基相关的估计的变化程度），从而增加了偏置。

因为并不知道实际的猜测的准确性，样本基的方法经常被用来估计正则参数值。 (sample based method 不是很懂，后续补充)

总的来说：引入了正则项，如果正则的越厉害，则偏置的越厉害，偏差也会越大，同时其沿样本基的估计变化程度越小。