写在前面:本文主要内容是LDA在机器学习领域的公式推导,仅当作笔记使用。
1. 简介
-
LDA(Linear Discriminant Analysis)是一种经典的线性学习方法,该算法属于监督算法。
- 给定训练集,设法将训练集投影到低维空间上,从而达到了降维的效果。
- 投影的结果要使同类样例的投影点尽可能接近、异类的投影点尽可能远离(同类相近、异类远离原则)。
- 下图给出了二维训练集投影到一维直线的效果图(图片来自《机器学习》周志华)
2. 算法内容(二分类)
- 给定数据集
,其中
。并定义:
- 第i类(1或0)示例的集合为
- 第i类示例集合的均值向量为
- 第i类示例集合的协方差矩阵
- 投影目标直线为
- 综上可以得到
- 两类样本中心在
上的投影分别为
和
- 两类样本协方差分别为
和
- 直线为一维空间,则上述4项皆为实数
- 两类样本中心在
- 第i类(1或0)示例的集合为
- 考虑同类相近、异类远离的原则,则只尽量同时需要满足1.同类样本协方差尽可能小;2.异类样本中心点尽可能远离。
- 协方差尽可能小即 <