(一)LDA算法
LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是
Fisher’s Linear Discriminant,因为它被Ronald Fisher发明自1936年,Discriminant这次词我个人的理解是,一个模
型,不需要去通过概率的方法来训练、预测数据,比如说各种贝叶斯方法,就需要获取数据的先验、后验概率等等。
LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按
类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。线性判别分析的基本思想是将高维的模
式样本投影到最佳鉴别矢量空间,即把高维空间中的数据点投影到一条直线去,将多维降为一维,并且要求投影后各
样本的类间散布距离最大,同时类内散布距离最小。即投影之后的数据点更具有线性分类性。
LDA是一种线性分类器。对于K-分类的一个分类问题,会有K个线性函数:
当满足条件:对于所有的j,都有Yk > Yj,的时候,我们就说x属于类别k。对于每一个分类,都有一个公式去算一个分值,
在所有的公式得到的分值中,找一个最大的,就是所属的分类了。
假设用来区分二分类的直线(投影函数)为:
类别i的原始中心点为:
类别i投影后的中心点为:
衡量类别i投影后,类别点之间的分散程度(方差)为: