降维算法之LDA及其实战

本文介绍了LDA(线性判别分析),一种有监督的降维技术,用于最大化类间区分度。内容包括LDA的用途、原理、数学公式,以及通过鸢尾花数据集进行的实战演示,展示了如何计算类内散布矩阵、类间散布矩阵,以及如何进行特征选择和降维。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.LDA介绍
      LDA(全称:Linear Discriminant Analysis,中文名称:线性判别分析)是一种有监督学习的降维技术,也就是说它的数据集的每个样本是有类标签的。Ronald A. Fisher在1936年提出了线性判别方法。
      用途:数据预处理中的降维,分类任务。
      目标:LDA关心的是能够最大化类间区分度的坐标成分。将特征空间(数据集中的多维样本)投影到一个维度更小的k维子空间中,同时保持区分类别的信息。
      原理:我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。(可以总结为LDA更关心分类,分类效果好了,类内的方差也就很小,类间的方差也就很大了。)
在这里插入图片描述
      从直观上可以看出,右图要比左图的投影效果好,因为右图的红色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。
2.数学原理(仅以二分类为例)
在这里插入图片描述
      目标:找到该投影 y = w T x y={ {w}^{T}}x y=wTx
      LDA分类的目标:使得不同类别之间的距离越远越好,同一类别之中的距离越近越好。
      每类样例的均值 μ i = 1 N i ∑ x ∈ w i x { {\mu }_{i}}=\frac{1}{ { {N}_{i}}}\sum\limits_{x\in { {w}_{i}}}{x} μi=Ni1xwix
      投影后的均值 μ i ~ = 1 N i ∑ y ∈ w i y = 1 N i ∑ x ∈ w i w T x = w T μ i \widetilde{ { {\mu }_{i}}}=\frac{1}{ { {N}_{i}}}\sum\limits_{y\in { {w}_{i}}}{y}=\frac{1}{ { {N}_{i}}}\sum\limits_{x\in { {w}_{i}}}{ { {w}^{T}}x}={ {w}^{T}}{ {\mu }_{i}} μi =Ni1ywiy=Ni1xwiwTx=wTμi
      投影后的两类样本中心点尽量分离 J ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ = ∣ w T ( μ 1 − μ 2 ) ∣ J\left( w \right)=\left| \widetilde{ { {\mu }_{1}}}-\widetilde{ { {\mu }_{2}}} \right|=\left| { {w}^{T}}\left( { {\mu }_{1}}-{ {\mu }_{2}} \right) \right| J(w)=μ1 μ2 =wT(μ1μ2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值