数据降维
一、 线性判别分析(LDA)
linear Discriminant Analysis
用途:
数据预处理中的降维,分类任务
目标:
LDA关心的是能够最大化类间区分度的坐标轴成分
将特征空间(数据集中的多位样本)投影到一个维度更加小的Kw维子空间中,同时保持区分类别的信息
原理
投影到维度更低的空间,使得投影后的点,会形成按照类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法
监督性:LDA是‘有监督’的,它的计算是另一类特定的方向
投影:找到更合适分类的空间
与PCA不同,更关心分类而不是方差
数学原理
原始数据
变换数据
目标
找到投影该投影: y = w T ∗ x y = w^{T} * x y=wT∗x
LDA分类的一个目标是使得不同类别之间的距离越远越好,
同一个类别之间的距离越近越好
每类样例的均值: μ i = 1 N i ∑ x ∈ ω i x \mu_{i} = \frac{1}{N_{i}}\sum_{x \in \omega_{i}} x μi=Ni1∑x∈ωix
投影后的均值: μ i ~ = 1 N i ∑ x ∈ ω i y = 1 N i ∑ x ∈ ω i w T ∗ x = w T μ i \widetilde{\mu_{i}}=\frac{1}{N_{i}}\sum_{x \in \omega_{i}} y = \frac{1}{N_{i}}\sum_{x \in \omega_{i}} w^{T} * x = w^{T}\mu_{i} μi
=Ni1∑x∈ωiy=Ni1∑x∈ωiwT∗x=wTμi
投影后的两类样本中心点尽量分离:
J ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ = ∣ w T ( μ 1 − μ 2 ) ∣ J(w) = |\widetilde{\mu_{1}}-\widetilde{\mu_{2}}| = |w^T(\mu_{1}-\mu_{2})| J(w)=∣μ1
−μ2
∣=∣wT(μ1−μ2)∣
不仅是要考虑最大化 J ( w ) J(w) J(w)
还有 散列值 μ i \mu_{i} μi(样本的密集程度,值越大,越分散,反之,越集中)
同类之间应该越密集些: μ i = 1 N i ∑ x ∈ ω i ( y − μ i ~ ) 2 \mu_{i} = \frac{1}{N_{i}}\sum_{x \in \omega_{i}}(y-\widetilde{\mu_{i}})^2 μi=Ni1∑x∈ωi(y−μi
)2
如下图,如果映射到X1轴上,数据较为分散,而且红色的数据簇和蓝色的数据簇会重合,无法分开,而投影到X2轴上虽然 J ( w J(w J(w小了,可是数据却比较集中,分类效果相对于X1轴会比较好
目标函数: j ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ 2 S 1 ~ 2 + S 2 ~ 2 {j(w)}=\frac{|\widetilde{\mu_{1}}-\widetilde{\mu_{2}}|^2}{\widetilde{S_{1}}^2+\widetilde{S_{2}}^2} j(w)=S1 2+S2 2∣μ1