LDA与PCA数据降维算法理论与实现(基于python)

数据降维

一、 线性判别分析(LDA)

linear Discriminant Analysis

用途:

数据预处理中的降维,分类任务

目标:

LDA关心的是能够最大化类间区分度的坐标轴成分
将特征空间(数据集中的多位样本)投影到一个维度更加小的Kw维子空间中,同时保持区分类别的信息

原理

投影到维度更低的空间,使得投影后的点,会形成按照类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法
在这里插入图片描述
监督性:LDA是‘有监督’的,它的计算是另一类特定的方向
投影:找到更合适分类的空间
与PCA不同,更关心分类而不是方差

数学原理
原始数据

在这里插入图片描述

变换数据

在这里插入图片描述

目标

找到投影该投影: y = w T ∗ x y = w^{T} * x y=wTx
LDA分类的一个目标是使得不同类别之间的距离越远越好,
同一个类别之间的距离越近越好
每类样例的均值: μ i = 1 N i ∑ x ∈ ω i x \mu_{i} = \frac{1}{N_{i}}\sum_{x \in \omega_{i}} x μi=Ni1xωix
投影后的均值: μ i ~ = 1 N i ∑ x ∈ ω i y = 1 N i ∑ x ∈ ω i w T ∗ x = w T μ i \widetilde{\mu_{i}}=\frac{1}{N_{i}}\sum_{x \in \omega_{i}} y = \frac{1}{N_{i}}\sum_{x \in \omega_{i}} w^{T} * x = w^{T}\mu_{i} μi =Ni1xωiy=Ni1xωiwTx=wTμi
投影后的两类样本中心点尽量分离:
J ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ = ∣ w T ( μ 1 − μ 2 ) ∣ J(w) = |\widetilde{\mu_{1}}-\widetilde{\mu_{2}}| = |w^T(\mu_{1}-\mu_{2})| J(w)=μ1 μ2 =wT(μ1μ2)

不仅是要考虑最大化 J ( w ) J(w) J(w)
还有 散列值 μ i \mu_{i} μi样本的密集程度,值越大,越分散,反之,越集中
同类之间应该越密集些: μ i = 1 N i ∑ x ∈ ω i ( y − μ i ~ ) 2 \mu_{i} = \frac{1}{N_{i}}\sum_{x \in \omega_{i}}(y-\widetilde{\mu_{i}})^2 μi=Ni1xωi(yμi )2

如下图,如果映射到X1轴上,数据较为分散,而且红色的数据簇和蓝色的数据簇会重合,无法分开,而投影到X2轴上虽然 J ( w J(w J(w小了,可是数据却比较集中,分类效果相对于X1轴会比较好
在这里插入图片描述

目标函数: j ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ 2 S 1 ~ 2 + S 2 ~ 2 {j(w)}=\frac{|\widetilde{\mu_{1}}-\widetilde{\mu_{2}}|^2}{\widetilde{S_{1}}^2+\widetilde{S_{2}}^2} j(w)=S1 2+S2 2μ1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值