在个人总结:PCA中,对PCA的原理以及理由进行了一个概述,PCA应该是降维领域名声最大的算法,但是提到PCA,就不得不联想到另外一个名气也不小的降维算法 LDA : Linear Discriminant Analysis,线性判别分析。它在模式识别领域(人脸识别等图像识别领域)用途广泛。同时需要区分自然语言处理的LDA : Latent Dirichlet Allocation, 隐含狄利克雷分布。下面讲到的是线性判别分析。
LDA的目的
这里就需要和PCA进行区分了。PCA是无监督降维技术,面对的是没有类别的数据,而LDA不同,它是有监督降维技术,面对的是类别标记的数据。同时,PCA的目的是在投影后“在特征向量对应的维度最大投影方差”,而LDA的目的是“类内的方差最小化,类间的方差最大化”。用一张图进行理解。
右图相对于左图就更符合LDA的目的。当然实际应用中,数据是多个类别的,原始数据一般也是超过二维的,投影后一般也不是一条直线,而是一个低维的超平面。
首先了解一下瑞利商
瑞利商在LDA的地位就如同协方差矩阵在PCA的地位。
这样的函数R(A, x)
其中x为非零向量,而A为n x n的Hermitan矩阵。Hermitan矩阵即是满足的矩阵,如果矩阵A是实矩阵,则满足
的矩阵即为Hermitan矩阵。
瑞利商的重要性质,它的最大值等于矩阵A的最大特征值,最小值等于矩阵A的最小特征值,
当x为标准正交基时,瑞利商退化为
而我们之后要用到的广义瑞利商R(A,B,x):
x为非零向量,而A,B为n x n的Hermitan矩阵。B为正定矩阵,对任意非零向量z,都有 zTBz > 0。
现在有一个问题是想要知道广义瑞利商的最大值和最小值。
首先令
这里B^(-1/2)要求B一定为正定矩阵。内部细节为:存在一个正交矩阵Q,使得B=Q^{T}AQ, A是一个对角矩阵,且对角线上元素均大于0。将A上对角元素开根号,得到B=Q^{T}AQ=Q^{T} A^{1/2}QQ^{T}A^{1/2} Q,于是 B^{1/2}=Q^{T}A^{1/