LDA线性判别回归
LDA降维的基本思想
LDA和PCA一样都是降维算法,但不同的是LDA是有监督的降维算法,它的目的是将不同类别的数据降维后仍能较好的区别开。而PCA是无监督的算法,它的目的是将样本数据降维后仍保留样本数据间的方差。
LDA认为不同类的样本服从均值不同的高斯分布,主要根据均值作为降维的导向,所以它在处理非高斯分布的数据,或者不同类别的高斯分布的均值相同时,分类效果不够好。LDA将原样本映射到一个超平面上,使同一个类别在这个超平面上尽可能集中,而不同类别在这个超平面上尽可能分开。
LDA计算
设W为样本x映射到的超平面,设原数据x的维度为 d x d_x dx,要映射到的维度为 d c d_c dc,则 W ∈ A d x × d c W\in A^{d_x\times d_c} W∈Adx×dc。 x i x_i xi映射到W上的点为 x ^ i \widehat x_i x
i,则 x ^ i = W T x i \widehat x_i=W^Tx_i x
i=WTxi.
上一节提到过,LDA认为不同类服从不同的高斯分布,则不同类的均值的距离越远越好,设投影前的类间距离为(下式中的C为数据集的类别数量,u为所有数据的均值点, N i N_i N