一.理论推导
1.1 背景介绍
线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由Fisher提出,亦称“Fisher判别分析”。
基本思想是通过将给定数据集投影到一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能疏远。按此规则训练完模型后,将新的样本投影到该直线上,根据投影点的位置来确定新样本点的类别。图1-1是LDA模型的二维示意图,“+”和“-”分别代表正例和反例,虚线表示样本点到直线的投影,圆点表示两类投影的中心点。LDA的优化目标就是使投影后的类内距离小,类间距离大。
图1-1 LDA的二维示意图
1.2 理论介绍
给定数据集,令Xi、μi、Σi分别表示第i∈{0,1}类示例的集合、均值向量、协方差矩阵。若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为
和
;若将所有样本点都投影到直线上,则两类样本的协方差分别为
和
。由于直线是一维空间,因此
、
、
和
均为实数。
欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即+