(一)正则化的引入(Regularized LDA)
在利用线性判别分析进行分类时,在进行协方差估计是得到 ,这个协方差的估计是一个有偏估计(biased estimates)。
因为其协方差是 正定的, 因此可以进行特征值分解 ,
其逆相应为:
我们利用协方差矩阵的逆,来进行分类判别,得到其判别得分函数为
可以看到,判别得分对于很小的特征值将有很大的比重,并且其方向与这个对应的特征向量有很大相关性。
协方差矩阵 产生了有偏估计 的特征值。最大的特征值,是偏差最高的(biased high);最小的特征值,其偏差值是很小的
(biased towards values that are too low)。
对于偏差,当估计的特征值趋向于相等时(equality),偏差是显著的(most pronounced)【我理解是偏差最大的】; 当其特征值是相差高度不同时(highly disparate),其偏差有很小剧烈程度的响应(corresponding less severe)。
当样本数减少时, 其偏差在上两种情况下都会有所增加(in all cases, this phenomenon becomes more pronounced as the sample size decreases.)。
我们进行分类时,得到的样本数小于维数时, 即 , 这时样本的协方差是奇异的(singular with rank
), 且最小的特征值 第(D-Nk + 1)个特征值开始,估计值将为0, 这是对应的特征向量将会是任意的正交约束的向量。
这个系统的偏差变化现象在判别分析中与低变化最小特征值子空间跨度(spanned)(指最小的样本特征值其特征向量构成的空间)是正相关的重要关系。因为最大的变化将会发生在判别得分函数中,判别函数得分函数与低样本变化测度空间有很大相关性。
(二) 正则化
- 变换协方差矩阵方法一(非正则):对与上述的协方差特征值的问题,我们可以进行特征值的变形修正(correcting the eigenvalue distortion),(包括方法【参加Regularized Discriminant Analysis -JEROME H. FRIEDMAN P7】),总的方向就是最小均方误差,在进行特征值估计时。将协方差矩阵变为非奇异的(unsingular)。
- 方法二(正则):正则法,在解决 ill- and poorly- posed inverse 问题时很成功。
当得到的样本数小于维数时, 即 ,就属于这种问题,通过应用正则,一种尝试是提高估计(一种正则方法),通过偏置这些远离样本基的值,使这些值被视为”物理上更合理的“(improve the estimates by biasing them away from their sample based values towards values that are deemed to be more "physically plausible".)[Cornfield (1967) suggested applying James-Stein shrinkage to the individual class location estimates.]
正则的作用是:正则减少了与样本基相关的估计的变化程度,但是以增大偏差潜在威胁作为补偿(因为更趋于相同特征值了)。
这个偏差的变化的平衡通常通过正则一个或者多个参数(这里为),来控制这个偏置的强度,即向“plausible" 集偏置的一组参数。(this bias variance trade-off is generally regulated by one or more parameters that control the strength of the biasing towards the "plausible" set of parameter values.)
通过对样本值进行正则化引入参数 ,这时增加的偏差(即
的变化),将正比与这些 合理可信集(“plausible ”set ) 参数 对实际样本分布表示 的近似程度。 因而, 如果有一个很差的猜测(a bad guess),即偏置的合理可信集 参数 与实际样本分布 差别很大, 这时,将会有很小的正则; 若是个很好的猜测, 将会是 high degree 正则, 这是很大程度减少了变化(与样本基相关的估计的变化程度),从而增加了偏置。
因为并不知道实际的猜测的准确性, 样本基的方法 经常被用来估计正则参数值。 (sample based method 不是很懂,后续补充)
总的来说: 引入了正则项, 如果正则的越厉害,则偏置的越厉害,偏差也会越大, 同时其沿样本基的估计 变化程度越小。
- 表示:
1) 2) 3) 是个渐进的过程, 正则的程度的加深的过程:
1)对于QDA,如果, 将会效果很差,正则化来替代样本的协方差矩阵的平均
,
这个应用了一个a considerable degree of regularization 通过减少了参数的估计。 即使协方差矩阵实际上不同的,这种减少变化是通过合并协方差估计(pooled covariance estimate)来实现的,通常有很好的效果,特别在小样本集时。