ML(三) 线性模型3.4 线性判别分析

本文介绍了线性判别分析(LDA)的二分类模型原理,涉及拉格朗日乘子法求解最优参数,以及如何扩展到多分类情况。重点讲解了类内方差最小化和异类样本中心最大化策略,以及广义特征值和瑞利商的应用。最后,阐述了LDA在分类和监督降维中的实际应用。

线性判别分析(Linear Discriminant Analysis,LDA)

笔记部分
在这里插入图片描述


二分类LDA模型

原理
给定训练样法将样例投影到一条直线上,使得:

  • 同类样例的投影点尽可能接近;
  • 异类样例投影点尽可能能远离。
  • 在对新样本进行分类时,将其投影到该直线上,再根据投点的位置来确定样本的类别。

如下图所示:
在这里插入图片描述

对应到机器学习三要素中分别为:

  • 模型:f(x)=wTxf(\mathbf x)=\mathbf w^T\mathbf xf(x)=wTx

  • 策略:经投影的类内方差尽可能小;经投影的异类样本中心尽可能远。

  • 算法:拉格朗日乘子法求解w\mathbf ww的最优闭式解。

策略——构建loss function

经投影的类内方差尽可能小

假设属于两类的试验样本数量分别是 m0m_0m0m1m_1m1,经投影的类内方差VarC0Var_{C_0}VarC0可表示为:

Σ0=1m0∑x∈X0(x−μ0)(x−μ0)T\mathbf \Sigma_0=\frac{1}{m_0}\sum\limits_{\mathbf x \in X_0}(\mathbf x-\mathbf μ_0)(\mathbf x-\mathbf μ_0)^TΣ0=m01xX0(xμ0)(xμ0)T表示标记为类别0的原始数据的协方差,μ0\mathbf μ_0μ0为标记为类别0的原始数据的均值向量。

同理:则此”经投影的类内方差尽可能小“策略需要:
wTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1wwTΣ0w+wTΣ1w尽可能小。

经投影的异类样本中心尽可能远

用两类的均值表示经投影的异类样本中心,其距离平方为:
∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2||wTμ0−wTμ1||2||wTμ0−wTμ1||2wTμ0wTμ12wTμ0wTμ12
则此”经投影的异类样本中心尽可能远“策略需要:
可以让类中心之间的距离尽可能大,即∣∣wTμ0−wTμ1∣∣2∣∣wTμ0−wTμ1∣∣2||wTμ0−wTμ1||2||wTμ0−wTμ1||2wTμ0wTμ12wTμ0wTμ12尽可能大。

二分类线性判别的loss function

综合上述两点,由于协方差是一个矩阵,于是用将这两个值相除来得到损失函数JJJ,并最大化这个值:

其中Sb\mathbf S_bSb为类间散度矩阵(between-class scatter matrix),Sw\mathbf S_wSw为类间散度矩阵(within-class scatter matrix)。JJJSb\mathbf S_bSbSw\mathbf S_wSw的广义瑞利商。

由于JJJ的分子分母都是关于www的二次项,因此其解与www的长度无关(即使扩展或缩减了www的长度也可以被约分),只与方向有关。又因为给定训练集后,SwS_wSw为常量,因此可以将www进行缩放,令分母整体固定为一个常量,即:wTSww=1\mathbf w^T\mathbf S_w\mathbf w=1wTSww=1

则可以进一步将loss function化为:

算法——求解参数
拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有个ddd变量与kkk个约束条件的最优化问题转化为具有d+kd+kd+k个变量的无约束优化问题求解。
在这里插入图片描述
在这里插入图片描述


wwwSbS_bSb相对于SwS_wSw的属于广义特征值λλλ的特征向量。

此时用拉格朗日乘子法求出来的极值点www一定是最小值点吗?
在这里插入图片描述

多分类LDA

全局散度矩阵
m为整个数据集的样本个数,StS_tSt表示各个样本点到全部样本中心的距离和:

优化目标
在这里插入图片描述

其中W=[w1;w2;…;wN−1]\mathbf W=[\mathbf w_1;\mathbf w_2;…;\mathbf w_{N-1}]W=[w1;w2;;wN1],于是可拆分成:

即可得到N−1N-1N1λλλλ1≤λ2≤…≤λN−1λ_1≤λ_2≤…≤λ_{N-1}λ1λ2λN1分别对应上面N−1N-1N1个等式。

为什么W是N-1维?
新样本必须分到一个类中,那么如果都不属于其他类就只剩下最后一个类。

应用:分类监督降维
若将W\mathbf WW视为一个投影矩阵,则多分类LDA将样本投影到N−1N-1N1维空间,N−1N-1N1通常远小子数据原有的属性数。可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。

附录

广义特征值
  • A,BA,BA,Bnnn阶方阵,若存在数λλλ,使得方程Ax=λBxAx=λBxAx=λBx存在非零解,则称λλλAAA相对于BBB的广义特征值,xxxAAA相对于BBB的属于广义特征值λλλ的特征向量。特别地,当B=IB=IB=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。

广义瑞丽商

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值