线性判别分析(Linear Discriminant Analysis, LDA)是一种用于模式识别
和机器学习
的分类和降维技术。LDA
通过找到能最大化类别间方差和最小化类别内方差的投影方向,实现样本的降维和分类。
LDA的基本思想
LDA的核心思想是通过线性变换将数据投影到一个新的空间中,使得同一类别的样本尽可能地紧凑在一起,而不同类别的样本尽可能地分开。具体来说,LDA的目标是找到一个或多个线性判别向量,使得类内散度矩阵
(within-class scatter matrix)最小化,而类间散度矩阵
(between-class scatter matrix)最大化。
LDA的数学公式
-
类内散度矩阵(Within-class scatter matrix):
其中,(S_i) 表示第 (i) 类的散度矩阵,计算方式为:
(mu_i) 是第 (i) 类的均值向量,(C_i) 是第 (i) 类的样本集合。
-
类间散度矩阵(Between-class scatter matrix):
其中,(N_i) 是第 (i) 类的样本数量,(mu_i) 是第 (i) 类的均值向量,(mu) 是所有样本的全局均值向量。
-
线性判别准则: 通过求解以下特征值问题来找到投影向量:
其中,(w) 是判别向量,(\lambda) 是对应的特征值。最大的特征值对应的特征向量是最佳投影方向。
LDA的步骤
-
计算每个类别的均值向量。
-
计算类内散度矩阵和类间散度矩阵。
-
求解特征值和特征向量,找到最佳投影方向。
-
将数据投影到新的空间,进行分类或降维。
LDA的应用
-
分类问题:LDA可以用于二分类或多分类问题,常用于人脸识别、文本分类<