LDA

线性判别分析(Linear Discriminant Analysis, LDA)

  • LDA是一种监督学习的降维技术,它的数据集的每个样本是有类别输出的。PCA是不考虑样本类别输出的无监督降维技术。
  • LDA的思想:“投影后类内方差最小,类间方差最大”。将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
    在这里插入图片描述

瑞利商𝑅(𝐴,𝑥) R ( A , x ) = x H A x x H x R(A,x) = \frac{x^HAx}{x^Hx} R(A,x)=xHxxHAx

  • 其中𝑥为非零向量,而𝐴为𝑛×𝑛的Hermitan矩阵。所谓的Hermitan矩阵就是满足共轭转置矩阵和自己相等的矩阵,即 A H = A A^H=A AH=A。如果我们的矩阵A是实矩阵,则满足 A T = A A^T=A AT=A的矩阵即为Hermitan矩阵。
  • 瑞利商有一个非常重要的性质,即它的最大值等于矩阵𝐴最大的特征值,而最小值等于矩阵𝐴的最小的特征值,也就是满足 λ m i n ≤ x H A x x H x ≤ λ m a x \lambda_{min} \leq \frac{x^HAx}{x^Hx} \leq \lambda_{max} λminxHxxHAxλmax

广义瑞利商是指这样的函数𝑅(𝐴,𝐵,𝑥): R ( A , B , x ) = x H A x x H B x R(A,B,x) = \frac{x^HAx}{x^HBx} R(A,B,x)=xHBxxHAx

  • 𝑅(𝐴,𝐵,𝑥′)的最大值为矩阵 B − 1 / 2 A B − 1 / 2 B^{-1/2}AB^{-1/2} B1/2AB1/2的最大特征值,或者说矩阵 B − 1 A B^{-1}A B1A的最大特征值,而最小值为矩阵 B − 1 A B^{-1}A B1A的最小特征值。

二类LDA

  • 假设数据集𝐷={(𝑥1,𝑦1),(𝑥2,𝑦2),…,((𝑥𝑚,𝑦𝑚))},其中任意样本𝑥𝑖为n维向量,𝑦𝑖∈{0,1}。
  • 𝑁𝑗(𝑗=0,1)为第j类样本的个数,
  • 𝑋𝑗(𝑗=0,1)为第j类样本的集合,
  • 𝜇𝑗(𝑗=0,1)为第j类样本的均值向量,定义Σ𝑗(𝑗=0,1)为第j类样本的协方差矩阵(严格说是缺少分母部分的协方差矩阵)
  • 𝜇𝑗 的表达式为: μ j = 1 N j ∑ x ∈ X j x      ( j = 0 , 1 ) \mu_j = \frac{1}{N_j}\sum\limits_{x \in X_j}x\;\;(j=0,1) μj=Nj1xXjx(j=0,1)
  • Σ𝑗的表达式为: Σ j = ∑ x ∈ X j ( x − μ j ) ( x − μ j ) T      ( j = 0 , 1 ) \Sigma_j = \sum\limits_{x \in X_j}(x-\mu_j)(x-\mu_j)^T\;\;(j=0,1) Σj=xXj(xμj)(xμj)T(j=0,1)
  • 由于是两类数据,因此只需要将数据投影到一条直线上即可。假设投影直线是向量𝑤,则对任意一个样本本𝑥𝑖,它在直线𝑤的投影为𝑤𝑇𝑥𝑖,对于两个类别的中心点𝜇0,𝜇1,在直线𝑤的投影为𝑤𝑇𝜇0和𝑤𝑇𝜇1
  • 由于LDA需要让不同类别的数据的类别中心之间的距离尽可能的大,也就是最大化 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 ||w^T\mu_0-w^T\mu_1||_2^2 wTμ0wTμ122
  • 同时希望同一种类别数据的投影点尽可能的接近,也就是同类样本投影点的协方差尽可能小,即最小化 w T Σ 0 w + w T Σ 1 w w^T\Sigma_0w+w^T\Sigma_1w wTΣ0w+wTΣ1w

a r g    m a x ⏟ w      J ( w ) = ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w \underbrace{arg\;max}_w\;\;J(w) = \frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w} = \frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w} w argmaxJ(w)=wTΣ0w+wTΣ1wwTμ0wTμ122=wT(Σ0+Σ1)wwT(μ0μ1)(μ0μ1)Tw

  • 定义类内散度矩阵𝑆𝑤为: S w = Σ 0 + Σ 1 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T S_w = \Sigma_0 + \Sigma_1 = \sum\limits_{x \in X_0}(x-\mu_0)(x-\mu_0)^T + \sum\limits_{x \in X_1}(x-\mu_1)(x-\mu_1)^T Sw=Σ0+Σ1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T
  • 定义类间散度矩阵𝑆𝑏为: S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b = (\mu_0-\mu_1)(\mu_0-\mu_1)^T Sb=(μ0μ1)(μ0μ1)T
  • 这样优化目标等同于: a r g    m a x ⏟ w      J ( w ) = w T S b w w T S w w \underbrace{arg\;max}_w\;\;J(w) = \frac{w^TS_bw}{w^TS_ww} w argmaxJ(w)=wTSwwwTSbw
  • 𝐽(𝑤′)最大值为矩阵 S w − 1 2 S b S w − 1 2 S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w Sw21SbSw21的最大特征值,而对应的 S w − 1 2 S b S w − 1 2 S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w Sw21SbSw21的最大特征值对应的特征向量! 而 S w − 1 S b S^{−1}_wS_b Sw1Sb的特征值和 S w − 1 2 S b S w − 1 2 S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w Sw21SbSw21的特征值相同, S w − 1 S b S^{−1}_wS_b Sw1Sb的特征向量𝑤和 S w − 1 2 S b S w − 1 2 S^{−\frac{1}{2}}_wS_bS^{−\frac{1}{2}}_w Sw21SbSw21的特征向量𝑤′满足 w = S w − 1 2 w ′ w=S^{−\frac{1}{2}}_ww' w=Sw21w的关系!
  • 对于二类的时候, S b w S_bw Sbw的方向恒平行于𝜇0−𝜇1,不妨令 S b w S_bw Sbw=𝜆(𝜇0−𝜇1),将其带入: ( S w − 1 S b ) w = λ w (S_w^{-1}S_b)w=\lambda w (Sw1Sb)w=λw,可以得到 w = S w − 1 ( μ 0 − μ 1 ) w=S_w^{-1}(\mu_0-\mu_1) w=Sw1(μ0μ1), 也就是只要求出原始二类样本的均值和方差就可以确定最佳的投影方向𝑤。

输入:数据集𝐷={(𝑥1,𝑦1),(𝑥2,𝑦2),…,((𝑥𝑚,𝑦𝑚))},其中任意样本𝑥𝑖为n维向量,𝑦𝑖∈{𝐶1,𝐶2,…,𝐶𝑘},降维到的维度d。
输出:降维后的样本集 D ′ D′ D

  1. 计算类内散度矩阵𝑆𝑤
  2. 计算类间散度矩阵𝑆𝑏
  3. 计算矩阵 S w − 1 S b S^{−1}_wS_b Sw1Sb
  4. 计算 S w − 1 S b S^{−1}_wS_b Sw1Sb的最大的d个特征值和对应的d个特征向量(𝑤1,𝑤2,…𝑤𝑑),得到投影矩阵W
  5. 对样本集中的每一个样本特征𝑥𝑖,转化为新的样本𝑧𝑖=𝑊𝑇𝑥𝑖
  6. 得到输出样本集𝐷′={(𝑧1,𝑦1),(𝑧2,𝑦2),…,((𝑧𝑚,𝑦𝑚))}

一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布,这样利用LDA进行投影后,可以利用极大似然估计计算各个类别投影数据的均值和方差,进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后,我们可以将它投影,然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数,计算它属于这个类别的概率,最大的概率对应的类别即为预测类别。


LDA vs PCA

相同:

  • 两者均可以对数据进行降维。
  • 两者在降维时均使用了矩阵特征分解的思想。
  • 两者都假设数据符合高斯分布。

不同:

  • LDA是有监督的降维方法,而PCA是无监督的降维方法。
  • LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
  • LDA除了可以用于降维,还可以用于分类。
  • LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向。
    在这里插入图片描述
    在这里插入图片描述

总结:

LDA算法的主要优点有:

1)在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。

2)LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。

LDA算法的主要缺点有:

1)LDA不适合对非高斯分布样本进行降维,PCA也有这个问题。

2)LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。
    
    3)LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。

4)LDA可能过度拟合数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值