线性判别分析(Linear Discriminant Analysis,LDA)
笔记部分

二分类LDA模型
原理
给定训练样法将样例投影到一条直线上,使得:
- 同类样例的投影点尽可能接近;
- 异类样例投影点尽可能能远离。
- 在对新样本进行分类时,将其投影到该直线上,再根据投点的位置来确定样本的类别。
如下图所示:

对应到机器学习三要素中分别为:
-
模型:f(x)=wTxf(\mathbf x)=\mathbf w^T\mathbf xf(x)=wTx。
-
策略:经投影的类内方差尽可能小;经投影的异类样本中心尽可能远。
-
算法:拉格朗日乘子法求解w\mathbf ww的最优闭式解。
策略——构建loss function
经投影的类内方差尽可能小
假设属于两类的试验样本数量分别是 m0m_0m0和 m1m_1m1,经投影的类内方差VarC0Var_{C_0}VarC0可表示为:
Σ0=1m0∑x∈X0(x−μ0)(x−μ0)T\mathbf \Sigma_0=\frac{1}{m_0}\sum\limits_{\mathbf x \in X_0}(\mathbf x-\mathbf μ_0)(\mathbf x-\mathbf μ_0)^TΣ0=m01x∈X0∑(x−μ0)(x−μ0)T表示标记为类别0的原始数据的协方差,μ0\mathbf μ_0μ0为标记为类别0的原始数据的均值向量。
同理:则此”经投影的类内方差尽可能小“策略需要:
wTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1w尽可能小。
经投影的异类样本中心尽可能远
用两类的均值表示经投影的异类样本中心,其距离平方为:
∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2||wTμ0−wTμ1||2||wTμ0−wTμ1||2∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2
则此”经投影的异类样本中心尽可能远“策略需要:
可以让类中心之间的距离尽可能大,即∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2||wTμ0−wTμ1||2||wTμ0−wTμ1||2∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2尽可能大。
二分类线性判别的loss function
综合上述两点,由于协方差是一个矩阵,于是用将这两个值相除来得到损失函数JJJ,并最大化这个值:
其中Sb\mathbf S_bSb为类间散度矩阵(between-class scatter matrix),Sw\mathbf S_wSw为类间散度矩阵(within-class scatter matrix)。JJJ是Sb\mathbf S_bSb和Sw\mathbf S_wSw的广义瑞利商。
由于JJJ的分子分母都是关于www的二次项,因此其解与www的长度无关(即使扩展或缩减了www的长度也可以被约分),只与方向有关。又因为给定训练集后,SwS_wSw为常量,因此可以将www进行缩放,令分母整体固定为一个常量,即:wTSww=1\mathbf w^T\mathbf S_w\mathbf w=1wTSww=1。
则可以进一步将loss function化为:
算法——求解参数
拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有个ddd变量与kkk个约束条件的最优化问题转化为具有d+kd+kd+k个变量的无约束优化问题求解。


www是SbS_bSb相对于SwS_wSw的属于广义特征值λλλ的特征向量。
此时用拉格朗日乘子法求出来的极值点www一定是最小值点吗?

多分类LDA
全局散度矩阵
m为整个数据集的样本个数,StS_tSt表示各个样本点到全部样本中心的距离和:
优化目标

其中W=[w1;w2;…;wN−1]\mathbf W=[\mathbf w_1;\mathbf w_2;…;\mathbf w_{N-1}]W=[w1;w2;…;wN−1],于是可拆分成:
即可得到N−1N-1N−1个λλλ,λ1≤λ2≤…≤λN−1λ_1≤λ_2≤…≤λ_{N-1}λ1≤λ2≤…≤λN−1分别对应上面N−1N-1N−1个等式。
为什么W是N-1维?
新样本必须分到一个类中,那么如果都不属于其他类就只剩下最后一个类。
应用:分类、监督降维
若将W\mathbf WW视为一个投影矩阵,则多分类LDA将样本投影到N−1N-1N−1维空间,N−1N-1N−1通常远小子数据原有的属性数。可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。
附录
广义特征值
- 设A,BA,BA,B为nnn阶方阵,若存在数λλλ,使得方程Ax=λBxAx=λBxAx=λBx存在非零解,则称λλλ为AAA相对于BBB的广义特征值,xxx为AAA相对于BBB的属于广义特征值λλλ的特征向量。特别地,当B=IB=IB=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。
广义瑞丽商

本文介绍了线性判别分析(LDA)的二分类模型原理,涉及拉格朗日乘子法求解最优参数,以及如何扩展到多分类情况。重点讲解了类内方差最小化和异类样本中心最大化策略,以及广义特征值和瑞利商的应用。最后,阐述了LDA在分类和监督降维中的实际应用。
918

被折叠的 条评论
为什么被折叠?



