1.LDA介绍
LDA(全称:Linear Discriminant Analysis,中文名称:线性判别分析)是一种有监督学习的降维技术,也就是说它的数据集的每个样本是有类标签的。Ronald A. Fisher在1936年提出了线性判别方法。
用途:数据预处理中的降维,分类任务。
目标:LDA关心的是能够最大化类间区分度的坐标成分。将特征空间(数据集中的多维样本)投影到一个维度更小的k维子空间中,同时保持区分类别的信息。
原理:我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。(可以总结为LDA更关心分类,分类效果好了,类内的方差也就很小,类间的方差也就很大了。)
从直观上可以看出,右图要比左图的投影效果好,因为右图的红色数据和蓝色数据各个较为集中,且类别之间的距离明显。左图则在边界处数据混杂。
2.数学原理(仅以二分类为例)
目标:找到该投影 y = w T x y={
{w}^{T}}x y=wTx
LDA分类的目标:使得不同类别之间的距离越远越好,同一类别之中的距离越近越好。
每类样例的均值: μ i = 1 N i ∑ x ∈ w i x {
{\mu }_{i}}=\frac{1}{
{
{N}_{i}}}\sum\limits_{x\in {
{w}_{i}}}{x} μi=Ni1x∈wi∑x
投影后的均值: μ i ~ = 1 N i ∑ y ∈ w i y = 1 N i ∑ x ∈ w i w T x = w T μ i \widetilde{
{
{\mu }_{i}}}=\frac{1}{
{
{N}_{i}}}\sum\limits_{y\in {
{w}_{i}}}{y}=\frac{1}{
{
{N}_{i}}}\sum\limits_{x\in {
{w}_{i}}}{
{
{w}^{T}}x}={
{w}^{T}}{
{\mu }_{i}} μi
=Ni1y∈wi∑y=Ni1x∈wi∑wTx=wTμi
投影后的两类样本中心点尽量分离: J ( w ) = ∣ μ 1 ~ − μ 2 ~ ∣ = ∣ w T ( μ 1 − μ 2 ) ∣ J\left( w \right)=\left| \widetilde{
{
{\mu }_{1}}}-\widetilde{
{
{\mu }_{2}}} \right|=\left| {
{w}^{T}}\left( {
{\mu }_{1}}-{
{\mu }_{2}} \right) \right| J(w)=∣μ1
−μ2
∣=∣∣wT(μ1−μ2)∣
降维算法之LDA及其实战
最新推荐文章于 2025-07-03 19:18:42 发布