机器学习方法篇(30)------线性判别分析

线性判别分析(LDA)是有监督降维方法,它不仅保持样本数据多样性,还考虑类别标签,使同类样本靠近,异类样本远离。通过定义目标函数并使用拉格朗日乘子法求解,实现有效分类。

● 每周一言

想工作高效,合作不可或缺。

导语

上一节介绍了PCA降维,PCA是一种无监督降维方法。本节将介绍另外一种常见的有监督降维方法,线性判别分析LDA,以及其具体的算法思想和步骤。

线性判别分析

我们知道,降维的最终目的是一方面能将特征维数大大降低,另一方面则是能够最大程度的保持原样本数据的多样性。

fig1

前一节所讲的PCA模型,可以将样本数据投影到方差最大的低维空间中,保证了样本数据的多样性。但是,由于是无监督学习,并未考虑到样本所属的类别,因此会出现不同类别数据在降维之后相互掺杂的情况,从而很难进行后续的分类。

线性判别分析,除了能够最大程度的保持原样本数据的多样性,由于其考虑到了样本的类别标签,还能使降维后的同类别样本距离尽可能小,而不同类别的样本尽可能大。

fig2

我们不妨通过一个二分类的例子,来熟悉一下LDA的具体算法思想和步骤,了解其是如何做到降维后还能划分开不同类别样本之间的数据的。

样本xi表示第i个样本的特征向量,yi表示第i个样本的类别标签。在二分类问题中,LDA通过z = ωx把原样本数据映射到一维空间中。

fig3

为了描述“同类别样本距离尽可能小,而不同类别的样本尽可能大”这个目标,我们先定义几个变量。根据z = ωx,每一个样本xi都转化成了zi。我们用Xc表示原空间C类别的样本集合,Zc表示降维空间C类别的样本集合。

定义样本集合Xc的均值如下:

eq1

定义样本集合Zc的均值如下:
eq2

有了上面的公式,我们就能定义同类别样本之间的距离如下:
eg3

同样的,也可以定义类别之间的距离如下:
eg4

根据上面两个式子,就能定义LDA的目标函数了。LDA的目标就是寻找最大化这个目标函数的ω值,使得“同类别样本距离尽可能小,而不同类别的样本尽可能大”。
eg5

求解这个函数的方法是拉格朗日乘子法,感兴趣的读者可以参考前面我对拉格朗日乘子法的讲解 机器学习方法篇(12)——拉格朗日乘子法,这里不再描述求解的公式推导过程。

以上便是线性判别分析的介绍,敬请期待下节内容。

参考:
https://blog.youkuaiyun.com/victoriaw/article/details/78213252

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值